Software pro obousměrnou klasifikaci sekvencí
Název práce v češtině: | Software pro obousměrnou klasifikaci sekvencí |
---|---|
Název v anglickém jazyce: | Software for Bidirectional Sequence Classification |
Akademický rok vypsání: | 2008/2009 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Jan Raab |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 01.12.2008 |
Datum zadání: | 01.12.2008 |
Datum a čas obhajoby: | 25.05.2009 00:00 |
Datum odevzdání elektronické podoby: | 25.05.2009 |
Datum proběhlé obhajoby: | 25.05.2009 |
Oponenti: | RNDr. Johanka Spoustová, Ph.D. |
Zásady pro vypracování |
Klasifikace sekvencí je úloha vhodná pro strojové učení. Pro klasifikace sekvencí se běžně používají skryté markovovské modely (HMM), které snižují výpočetní složitost úlohy. Jejich omezením však je jejich "jednosměrnost" - volba kandidáta na určité pozici může záviset na již učiněných rozhodnutích pouze na předcházejících pozicích. Tím může docházet k volbě suboptimálního kandidáta, a tím snížení úspěšnosti klasifikátoru. Cílem této práce je implementace algoritmu popsaného v článku (Shen, 2007). Tento algoritmus se chová "obousměrně", může používat již učiněná rozhodnutí na obou stranách od aktuální pozice, přitom však zachovává výpočetně únosnou složitost.
Softwarové dílo by mělo být vytvořeno v jazyce C primárně pro platformu Linux a zapojeno do stávajících nástrojů pro zpracování lingvistických dat. Primárně bude dílo využito pro morfologické značkování češtiny a angličtiny, což je typická úloha klasifikace sekvencí. Jedním z cílů je ověřit možnost zvýšení úspěšnosti na této úloze. |
Seznam odborné literatury |
Michael Collins. 2002. Discriminative training methods for hidden Markov models: Theory and Experiments with Perceptron Algorithms. In EMNLP 2002: Proceedings of the ACL-02 conference on Empirical methods in natural language processing, volume 10, pages 1-8, Philadelphia, PA.
Jan Hajič. 2004. Disambiguation of Rich Inflection (Computational Morphology of Czech). Nakladatelství Karolinum, Prague. Libin Shen, Giorgio Satta, and Aravind K. Joshi. 2007. Guided learning for bidirectional sequence classification. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, pages 760-767, Prague, Czech Republic, June. Association for Computational Linguistics. Votrubec, J., Selecting an optimal set of features for the morphological tagging of Czech (Master thesis). MFF UK, 2005. |