Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Extrakce víceslovných výrazů z textu
Název práce v češtině: Extrakce víceslovných výrazů z textu
Název v anglickém jazyce: Multiword expression extraction from text
Klíčová slova: lexikální asociační míry, strojové učení
Klíčová slova anglicky: lexical association measures, machine learning
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:
Zásady pro vypracování
Víceslovné výrazy tvoří neobyčejně zajímavou součást přirozeného jazyka. V popisu jazyka se umisťují na rozhraní slovníku a gramatiky, mají syntaktickou strukturu, ale zároveň také charakter sémantických jednotek (nedělitelný význam). Jako takové by tedy měli tvořit nedílnou součást slovníku (spolu s vyjádřením významu), např. protože pouze takto je možné jejich osvojení nerodilým mluvčím.

Automatickou konstrukci takového slovníku lze řešit použitím lexikálních asociačních měr, které slouží pro odhad míry asociace mezi slovy, a to na základě četností jejich výskytů a souvýskytů v textových korpusech.

Cílem diplomové práce je návrh a implementace efektivního nástroje pro automatickou extrakci a identifikaci víceslovných spojeni v rozsáhlých textových korpusech. Řešení bude založené na principech strojového učení popsaných v [1].
Seznam odborné literatury
[1] Pavel Pecina. Lexical Association Measures: Collocation Extraction, volume 4 of Studies in Computational and Theoretical Linguistics. UFAL, Praha, Czech Republic, 2009

[2] Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999.

[3] Eduard Bejček, Pavel Straňák. Annotation of multiword expressions in the Prague dependency treebank. Language Resources and Evaluation, vol. 44, pages: 7-21 , no. 1-2, 2010
 
Univerzita Karlova | Informační systém UK