Morfologická disambiguace češtiny pomocí Markovkých modelů
Název práce v češtině: | Morfologická disambiguace češtiny pomocí Markovkých modelů |
---|---|
Název v anglickém jazyce: | Disambiguation of Czech Morphology Using Markov Models |
Akademický rok vypsání: | 2005/2006 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Petr Podveský, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 18.10.2005 |
Datum zadání: | 18.10.2005 |
Datum a čas obhajoby: | 26.06.2006 00:00 |
Datum odevzdání elektronické podoby: | 26.06.2006 |
Datum proběhlé obhajoby: | 26.06.2006 |
Oponenti: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Zásady pro vypracování |
Softwarový nástroj bude implementován v C/C++. Měl by fungovat v operačních systémech Windows a Linux jako program spustitelný z příkazové řádky. Parametry modelu, odkazy na trénovací a testovací soubory se budou zadávat jako parametry programu, grafické rozhraní je nad rámec požadavků.
|
Seznam odborné literatury |
Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze The MIT Press, 1999 Serial Combination of Rules and Statistics: A Case Study in Czech Tagging Hajič J., Krbec P., Oliva K., Květoň P., Petkevič V. In Proceedings of ACL 2001, Toulouse, France |
Předběžná náplň práce |
Cílem bakalářské práce je vytvořit nástroj pro automatickou disambiguaci morfologických značek. Jako matematematický aparát budou využity Markovské modely s pamětí omezenou na bezprostředně předchozí značku (tzv. bigramový model). Součástí řešení bude experimentální vyhodnocení na datech z Pražského závislostních korpusu (PDT 2.0). |