Extrakce víceslovných výrazů z textu
Thesis title in Czech: | Extrakce víceslovných výrazů z textu |
---|---|
Thesis title in English: | Multiword expression extraction from text |
Key words: | lexikální asociační míry, strojové učení |
English key words: | lexical association measures, machine learning |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: |
Guidelines |
Víceslovné výrazy tvoří neobyčejně zajímavou součást přirozeného jazyka. V popisu jazyka se umisťují na rozhraní slovníku a gramatiky, mají syntaktickou strukturu, ale zároveň také charakter sémantických jednotek (nedělitelný význam). Jako takové by tedy měli tvořit nedílnou součást slovníku (spolu s vyjádřením významu), např. protože pouze takto je možné jejich osvojení nerodilým mluvčím.
Automatickou konstrukci takového slovníku lze řešit použitím lexikálních asociačních měr, které slouží pro odhad míry asociace mezi slovy, a to na základě četností jejich výskytů a souvýskytů v textových korpusech. Cílem diplomové práce je návrh a implementace efektivního nástroje pro automatickou extrakci a identifikaci víceslovných spojeni v rozsáhlých textových korpusech. Řešení bude založené na principech strojového učení popsaných v [1]. |
References |
[1] Pavel Pecina. Lexical Association Measures: Collocation Extraction, volume 4 of Studies in Computational and Theoretical Linguistics. UFAL, Praha, Czech Republic, 2009
[2] Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA.1999. [3] Eduard Bejček, Pavel Straňák. Annotation of multiword expressions in the Prague dependency treebank. Language Resources and Evaluation, vol. 44, pages: 7-21 , no. 1-2, 2010 |