Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Metody extrakce víceslovných výrazů z textu
Název práce v češtině: Metody extrakce víceslovných výrazů z textu
Název v anglickém jazyce: Methods of multiword expression extraction from text
Akademický rok vypsání: 2007/2008
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 16.11.2007
Datum zadání: 20.11.2007
Datum a čas obhajoby: 09.09.2008 00:00
Datum odevzdání elektronické podoby:09.09.2008
Datum proběhlé obhajoby: 09.09.2008
Oponenti: Mgr. Pavel Schlesinger
 
 
 
Zásady pro vypracování
Víceslovné výrazy v textu jsou neobyčejně zajímavým jevem. Jedná se o případy, kdy více slov tvoří významově nedělitelný celek, jehož rozbitím by se význam původního výrazu ztratil (nekompozičnost). Takové případy je vhodné při zpracování textu ošetřovat zvlášť. Metody automatické identifikace těchto výrazů jsou založeny na statistikách výskytu slov v textu a jejich úspěšnost závisí na množství analyzovaného textu. V dnešní době jsou k dispozici i velice rozsáhlé textové korpusy, jejichž zpracovaní a získání potřebných statistik je paměťově i časově poměrně náročné. Řešení úlohy spočívá v efektivní implementaci metod extrakce víceslovných výrazů pro použití na korpusech o velikosti v řádu miliard slov.
Seznam odborné literatury
Pavel Pecina and Pavel Schlesinger: Combining Association Measures for Collocation Extraction. Proceedings of the 21th International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics (COLING/ACL 2006), Sydney, Australia, July 2006.

Pavel Pecina: An Extensive Empirical Study of Collocation Extraction Methods. Proceedings of the 43th Annual Meeting of the Association for Computational Linguistics (ACL 2005), Student Research Workshop, Ann Arbor, Michigan, June 2005
 
Univerzita Karlova | Informační systém UK