Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Rychlý a trénovatelný tokenizér pro přirozené jazyky

Thesis title in Czech:	Rychlý a trénovatelný tokenizér pro přirozené jazyky
Thesis title in English:	Fast and Trainable Tokenizer for Natural Languages
Key words:	tokenizace, segmentace, maximální entropie, předzpracování textu
English key words:	tokenization, segmentaion, maximum entropy, text preprocessing
Academic year of topic announcement:	2009/2010
Thesis type:	Bachelor's thesis
Thesis language:	angličtina
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Ondřej Bojar, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	11.04.2011
Date of assignment:	11.04.2011
Date and time of defence:	07.09.2011 09:00
Date of electronic submission:	04.08.2011
Date of submission of printed version:	05.08.2011
Date of proceeded defence:	07.09.2011
Opponents:	RNDr. Miroslav Spousta

Guidelines

Prvním krokem při práci s přirozeným jazykem (natural language processing, NLP) je automatická identifikace hranic slov a vět. Jakkoli to zní jednoduše, v praxi velmi často narážíme na diskutabilní případy. V NLP se dlouhodobě osvědčují metody založené na strojovém učení. Místo implementace přesného algoritmu dodáme pouze relevantní rysy a množství ukázkových (trénovacích) dat. Stejný postup lze uplatnit i pro tokenizaci (dělení textu na slova) a segmentaci (identifikaci hranic vět).

Cílem bakalářské práce je reimplementovat existující trénovatelný tokenizér pro maximální výkon. Jako vhodný programovací jazyk se proto jeví C/C++, pro nejž jsou navíc dostupné knihovny pro strojové učení. Nedílnou součástí práce je tokenizér vyladit a vyhodnotit jak z hlediska chybovosti, tak z hlediska doby běhu. Vyhodnocení z hlediska chybovosti je třeba provést nejméně pro češtinu a angličtinu, tj. je třeba dodat rozumnou množinu hrubých tokenizačních pravidel a trénovacích dat pro tyto jazyky.

Vhodným rozšířením je např. jednoduchý textový nástroj pro hledání nekonzistencí v trénovacích datech, k nimž při dlouhodobém rozšiřování trénovacích dat bohužel může snadno dojít.

References

Natalia Klyueva and Ondřej Bojar. UMC 0.1: Czech-Russian-English Multilingual Corpus. In Proc. of International Conference Corpus Linguistics, pages 188-195, October 2008.
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-kljueva_bojar_2008-2008-corpora-umc.pdf

Ondřej Bojar. Trainable Tokenizer (Perl implementation).
http://ufal.mff.cuni.cz/euromatrixplus/downloads.html

Le Zhang (2003): Maximum Entropy Modeling Toolkit for Python and C++.
http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html

Tibor Kiss, Jan Strunk (2006): Unsupervised Multilingual Sentence Boundary Detection. Computational Linguistics 32: 485-525.