Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Metody extrakce víceslovných výrazů z textu
Thesis title in Czech: Metody extrakce víceslovných výrazů z textu
Thesis title in English: Methods of multiword expression extraction from text
Academic year of topic announcement: 2007/2008
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Pavel Pecina, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 16.11.2007
Date of assignment: 20.11.2007
Date and time of defence: 09.09.2008 00:00
Date of electronic submission:09.09.2008
Date of proceeded defence: 09.09.2008
Opponents: Mgr. Pavel Schlesinger
 
 
 
Guidelines
Víceslovné výrazy v textu jsou neobyčejně zajímavým jevem. Jedná se o případy, kdy více slov tvoří významově nedělitelný celek, jehož rozbitím by se význam původního výrazu ztratil (nekompozičnost). Takové případy je vhodné při zpracování textu ošetřovat zvlášť. Metody automatické identifikace těchto výrazů jsou založeny na statistikách výskytu slov v textu a jejich úspěšnost závisí na množství analyzovaného textu. V dnešní době jsou k dispozici i velice rozsáhlé textové korpusy, jejichž zpracovaní a získání potřebných statistik je paměťově i časově poměrně náročné. Řešení úlohy spočívá v efektivní implementaci metod extrakce víceslovných výrazů pro použití na korpusech o velikosti v řádu miliard slov.
References
Pavel Pecina and Pavel Schlesinger: Combining Association Measures for Collocation Extraction. Proceedings of the 21th International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL 2006), Sydney, Australia, July 2006.

Pavel Pecina: An Extensive Empirical Study of Collocation Extraction Methods. Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics (ACL 2005), Student Research Workshop, Ann Arbor, Michigan, June 2005
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html