Částečná tektogramatická analýza pomocí rozhodovacích stromů
Název práce v češtině: | Částečná tektogramatická analýza pomocí rozhodovacích stromů |
---|---|
Název v anglickém jazyce: | |
Akademický rok vypsání: | 2006/2007 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Mgr. Václav Klimeš, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Práce bude spočívat ve vytvoření programu pro automatickou anotaci atributů tektogramatické roviny ([1]) za předpokladu, že tektogramatická struktura je správně určena. Práce bude navazovat na práci [2] a v prvním přiblížení z ní co nejpřesněji převezme množinu rysů uzlů, na základě které je anotace provedena. Výsledky obou implementací budou porovnány a interpretovány. Jádrem práce ovšem bude nalézt pro danou úlohu optimální množinu rysů a optimální parametry nastavení nástroje pro učení
pomocí rozhodovacích stromů, nejlépe za použití nástroje C5.0, příp. C4.5. Všechny experimenty budou provedeny na datech z Prague Dependency Treebank 2.0 ([3]). |
Seznam odborné literatury |
[1] Alena Böhmová, Silvie Cinková, Eva Hajičová: A Manual for Tectogrammatical Layer Annotation of the Prague Dependency Treebank, ÚFAL MFF UK Praha, 2005 (technická zpráva)
[2] Václav Klimeš: Analytical and Tectogrammatical Analysis of a Natural Language, ÚFAL MFF UK, Praha, 2006 (dizertační práce) [3] Jan Hajič, Jarmila Panevová, Eva Hajičová, Jarmila Panevová, Petr Sgall, Petr Pajas, Jan Štěpánek, Jiří Havelka, and Marie Mikulová: Prague Dependency Treebank 2.0, Linguistic Data Consortium, University of Pennsylvania, USA, 2006. ISBN 1-58563-370-4 (CD) |
Předběžná náplň práce |
Cílem práce je implementovat částečnou analýzu přirozeného jazyka na tzv. tektogramatické rovině -- rovině hloubkové syntaxe, a to za použití strojového učení pomocí rozhodovacích stromů (decision trees). Návrh implementace vyjde z existující implementace vystavěné na metodě učení založeného na transformacích (transformation-based learning) a její výsledky s ní budou porovnány. Poté autor práce navrhne vlastní implementaci s cílem vylepšit získané výsledky.
|