Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Lexikální asociační míry pro více než dvouslovné výrazy

Název práce v češtině:	Lexikální asociační míry pro více než dvouslovné výrazy
Název v anglickém jazyce:	Lexical association measures for higher-order multiword expressions
Klíčová slova:	lexikální asociační míry, extrakce víceslovných výrazů z textu, statistická asociace
Klíčová slova anglicky:	lexical association measures, multiword expression extraction from text, statistical association
Akademický rok vypsání:	2014/2015
Typ práce:	diplomová práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:

Zásady pro vypracování

Víceslovné výrazy tvoří neobyčejně zajímavou součást přirozeného jazyka. V popisu jazyka se umisťují na rozhraní slovníku a gramaticky, mají syntaktickou strukturu ale zároveň charakter sémantických jednotek (nedělitelný význam). Měli by tedy tvořit nedílnou součást slovníku (spolu s vyjádřením významu), protože pouze takto je možné jejich osvojení nerodilým mluvčím.

Lexikální asociační míry jsou matematické funkce, které slouží pro odhad míry asociace mezi slovy, a to na základě četností jejich výskytů a souvýskytů v textových korpusech. Kromě asociace sémantické, je možné analyzovat asociaci kolokační a použít asociační míry k extrakci slovních spojení s velkou lexikální asociací — tzv. víceslovných výrazů (multiword expressions). Většina asociačních měr je určena pro dva jevy — výskyt slova A a slova B — a lze je přímo použít pouze pro extrakci dvouslovných spojení.

Tato diplomová práce má za cíl analýzu lexikálních a asociačních měr a jejich použití pro extrakci víceslovných slovních výrazů (o více než dvou slovech). Součástí řešení bude empirická evaluace. Výhodou pro řešení budou hlubší znalosti matematické statistiky.

Seznam odborné literatury

Pavel Pecina. Lexical Association Measures: Collocation Extraction, volume 4 of Studies in Computational and Theoretical Linguistics. UFAL, Praha, Czech Republic, 2009.

Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999.

Eduard Bejček, Pavel Straňák. Annotation of multiword expressions in the Prague dependency treebank. Language Resources and Evaluation, vol. 44, pages: 7-21 , no. 1-2, 2010.