Lexikální asociační míry pro více než dvouslovné výrazy
Název práce v češtině: | Lexikální asociační míry pro více než dvouslovné výrazy |
---|---|
Název v anglickém jazyce: | Lexical association measures for higher-order multiword expressions |
Klíčová slova: | lexikální asociační míry, extrakce víceslovných výrazů z textu, statistická asociace |
Klíčová slova anglicky: | lexical association measures, multiword expression extraction from text, statistical association |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Víceslovné výrazy tvoří neobyčejně zajímavou součást přirozeného jazyka. V popisu jazyka se umisťují na rozhraní slovníku a gramaticky, mají syntaktickou strukturu ale zároveň charakter sémantických jednotek (nedělitelný význam). Měli by tedy tvořit nedílnou součást slovníku (spolu s vyjádřením významu), protože pouze takto je možné jejich osvojení nerodilým mluvčím.
Lexikální asociační míry jsou matematické funkce, které slouží pro odhad míry asociace mezi slovy, a to na základě četností jejich výskytů a souvýskytů v textových korpusech. Kromě asociace sémantické, je možné analyzovat asociaci kolokační a použít asociační míry k extrakci slovních spojení s velkou lexikální asociací — tzv. víceslovných výrazů (multiword expressions). Většina asociačních měr je určena pro dva jevy — výskyt slova A a slova B — a lze je přímo použít pouze pro extrakci dvouslovných spojení. Tato diplomová práce má za cíl analýzu lexikálních a asociačních měr a jejich použití pro extrakci víceslovných slovních výrazů (o více než dvou slovech). Součástí řešení bude empirická evaluace. Výhodou pro řešení budou hlubší znalosti matematické statistiky. |
Seznam odborné literatury |
Pavel Pecina. Lexical Association Measures: Collocation Extraction, volume 4 of Studies in Computational and Theoretical Linguistics. UFAL, Praha, Czech Republic, 2009.
Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999. Eduard Bejček, Pavel Straňák. Annotation of multiword expressions in the Prague dependency treebank. Language Resources and Evaluation, vol. 44, pages: 7-21 , no. 1-2, 2010. |