Rychlý a trénovatelný tokenizér pro přirozené jazyky
Thesis title in Czech: | Rychlý a trénovatelný tokenizér pro přirozené jazyky |
---|---|
Thesis title in English: | Fast and Trainable Tokenizer for Natural Languages |
Key words: | tokenizace, segmentace, maximální entropie, předzpracování textu |
English key words: | tokenization, segmentaion, maximum entropy, text preprocessing |
Academic year of topic announcement: | 2009/2010 |
Thesis type: | Bachelor's thesis |
Thesis language: | angličtina |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Ondřej Bojar, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 11.04.2011 |
Date of assignment: | 11.04.2011 |
Date and time of defence: | 07.09.2011 09:00 |
Date of electronic submission: | 04.08.2011 |
Date of submission of printed version: | 05.08.2011 |
Date of proceeded defence: | 07.09.2011 |
Opponents: | RNDr. Miroslav Spousta |
Guidelines |
Prvním krokem při práci s přirozeným jazykem (natural language processing, NLP) je automatická identifikace hranic slov a vět. Jakkoli to zní jednoduše, v praxi velmi často narážíme na diskutabilní případy. V NLP se dlouhodobě osvědčují metody založené na strojovém učení. Místo implementace přesného algoritmu dodáme pouze relevantní rysy a množství ukázkových (trénovacích) dat. Stejný postup lze uplatnit i pro tokenizaci (dělení textu na slova) a segmentaci (identifikaci hranic vět).
Cílem bakalářské práce je reimplementovat existující trénovatelný tokenizér pro maximální výkon. Jako vhodný programovací jazyk se proto jeví C/C++, pro nejž jsou navíc dostupné knihovny pro strojové učení. Nedílnou součástí práce je tokenizér vyladit a vyhodnotit jak z hlediska chybovosti, tak z hlediska doby běhu. Vyhodnocení z hlediska chybovosti je třeba provést nejméně pro češtinu a angličtinu, tj. je třeba dodat rozumnou množinu hrubých tokenizačních pravidel a trénovacích dat pro tyto jazyky. Vhodným rozšířením je např. jednoduchý textový nástroj pro hledání nekonzistencí v trénovacích datech, k nimž při dlouhodobém rozšiřování trénovacích dat bohužel může snadno dojít. |
References |
Natalia Klyueva and Ondřej Bojar. UMC 0.1: Czech-Russian-English Multilingual Corpus. In Proc. of International Conference Corpus Linguistics, pages 188-195, October 2008.
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-kljueva_bojar_2008-2008-corpora-umc.pdf Ondřej Bojar. Trainable Tokenizer (Perl implementation). http://ufal.mff.cuni.cz/euromatrixplus/downloads.html Le Zhang (2003): Maximum Entropy Modeling Toolkit for Python and C++. http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html Tibor Kiss, Jan Strunk (2006): Unsupervised Multilingual Sentence Boundary Detection. Computational Linguistics 32: 485-525. |