Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Software pro obousměrnou klasifikaci sekvencí

Název práce v češtině:	Software pro obousměrnou klasifikaci sekvencí
Název v anglickém jazyce:	Software for Bidirectional Sequence Classification
Akademický rok vypsání:	2008/2009
Typ práce:	diplomová práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	RNDr. Jan Raab
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	01.12.2008
Datum zadání:	01.12.2008
Datum a čas obhajoby:	25.05.2009 00:00
Datum odevzdání elektronické podoby:	25.05.2009
Datum proběhlé obhajoby:	25.05.2009
Oponenti:	RNDr. Johanka Spoustová, Ph.D.

Zásady pro vypracování

Klasifikace sekvencí je úloha vhodná pro strojové učení. Pro klasifikace sekvencí se běžně používají skryté markovovské modely (HMM), které snižují výpočetní složitost úlohy. Jejich omezením však je jejich "jednosměrnost" - volba kandidáta na určité pozici může záviset na již učiněných rozhodnutích pouze na předcházejících pozicích. Tím může docházet k volbě suboptimálního kandidáta, a tím snížení úspěšnosti klasifikátoru. Cílem této práce je implementace algoritmu popsaného v článku (Shen, 2007). Tento algoritmus se chová "obousměrně", může používat již učiněná rozhodnutí na obou stranách od aktuální pozice, přitom však zachovává výpočetně únosnou složitost.

Softwarové dílo by mělo být vytvořeno v jazyce C primárně pro platformu Linux a zapojeno do stávajících nástrojů pro zpracování lingvistických dat. Primárně bude dílo využito pro morfologické značkování češtiny a angličtiny, což je typická úloha klasifikace sekvencí. Jedním z cílů je ověřit možnost zvýšení úspěšnosti na této úloze.

Seznam odborné literatury

Michael Collins. 2002. Discriminative training methods for hidden Markov models: Theory and Experiments with Perceptron Algorithms. In EMNLP 2002: Proceedings of the ACL-02 conference on Empirical methods in natural language processing, volume 10, pages 1-8, Philadelphia, PA.

Jan Hajič. 2004. Disambiguation of Rich Inflection (Computational Morphology of Czech). Nakladatelství Karolinum, Prague.

Libin Shen, Giorgio Satta, and Aravind K. Joshi. 2007. Guided learning for bidirectional sequence classification. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 760-767, Prague, Czech Republic, June. Association for Computational Linguistics.

Votrubec, J., Selecting an optimal set of features for the morphological tagging of Czech (Master thesis). MFF UK, 2005.