Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Software pro obousměrnou klasifikaci sekvencí

Thesis title in Czech:	Software pro obousměrnou klasifikaci sekvencí
Thesis title in English:	Software for Bidirectional Sequence Classification
Academic year of topic announcement:	2008/2009
Thesis type:	diploma thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	RNDr. Jan Raab
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	01.12.2008
Date of assignment:	01.12.2008
Date and time of defence:	25.05.2009 00:00
Date of electronic submission:	25.05.2009
Date of proceeded defence:	25.05.2009
Opponents:	RNDr. Johanka Spoustová, Ph.D.

Guidelines

Klasifikace sekvencí je úloha vhodná pro strojové učení. Pro klasifikace sekvencí se běžně používají skryté markovovské modely (HMM), které snižují výpočetní složitost úlohy. Jejich omezením však je jejich "jednosměrnost" - volba kandidáta na určité pozici může záviset na již učiněných rozhodnutích pouze na předcházejících pozicích. Tím může docházet k volbě suboptimálního kandidáta, a tím snížení úspěšnosti klasifikátoru. Cílem této práce je implementace algoritmu popsaného v článku (Shen, 2007). Tento algoritmus se chová "obousměrně", může používat již učiněná rozhodnutí na obou stranách od aktuální pozice, přitom však zachovává výpočetně únosnou složitost.

Softwarové dílo by mělo být vytvořeno v jazyce C primárně pro platformu Linux a zapojeno do stávajících nástrojů pro zpracování lingvistických dat. Primárně bude dílo využito pro morfologické značkování češtiny a angličtiny, což je typická úloha klasifikace sekvencí. Jedním z cílů je ověřit možnost zvýšení úspěšnosti na této úloze.

References

Michael Collins. 2002. Discriminative training methods for hidden Markov models: Theory and Experiments with Perceptron Algorithms. In EMNLP 2002: Proceedings of the ACL-02 conference on Empirical methods in natural language processing, volume 10, pages 1-8, Philadelphia, PA.

Jan Hajič. 2004. Disambiguation of Rich Inflection (Computational Morphology of Czech). Nakladatelství Karolinum, Prague.

Libin Shen, Giorgio Satta, and Aravind K. Joshi. 2007. Guided learning for bidirectional sequence classification. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 760-767, Prague, Czech Republic, June. Association for Computational Linguistics.

Votrubec, J., Selecting an optimal set of features for the morphological tagging of Czech (Master thesis). MFF UK, 2005.