Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Rychlý a trénovatelný tokenizér pro přirozené jazyky
Thesis title in Czech: Rychlý a trénovatelný tokenizér pro přirozené jazyky
Thesis title in English: Fast and Trainable Tokenizer for Natural Languages
Key words: tokenizace, segmentace, maximální entropie, předzpracování textu
English key words: tokenization, segmentaion, maximum entropy, text preprocessing
Academic year of topic announcement: 2009/2010
Thesis type: Bachelor's thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 11.04.2011
Date of assignment: 11.04.2011
Date and time of defence: 07.09.2011 09:00
Date of electronic submission:04.08.2011
Date of submission of printed version:05.08.2011
Date of proceeded defence: 07.09.2011
Opponents: RNDr. Miroslav Spousta
 
 
 
Guidelines
Prvním krokem při práci s přirozeným jazykem (natural language processing, NLP) je automatická identifikace hranic slov a vět. Jakkoli to zní jednoduše, v praxi velmi často narážíme na diskutabilní případy. V NLP se dlouhodobě osvědčují metody založené na strojovém učení. Místo implementace přesného algoritmu dodáme pouze relevantní rysy a množství ukázkových (trénovacích) dat. Stejný postup lze uplatnit i pro tokenizaci (dělení textu na slova) a segmentaci (identifikaci hranic vět).

Cílem bakalářské práce je reimplementovat existující trénovatelný tokenizér pro maximální výkon. Jako vhodný programovací jazyk se proto jeví C/C++, pro nejž jsou navíc dostupné knihovny pro strojové učení. Nedílnou součástí práce je tokenizér vyladit a vyhodnotit jak z hlediska chybovosti, tak z hlediska doby běhu. Vyhodnocení z hlediska chybovosti je třeba provést nejméně pro češtinu a angličtinu, tj. je třeba dodat rozumnou množinu hrubých tokenizačních pravidel a trénovacích dat pro tyto jazyky.

Vhodným rozšířením je např. jednoduchý textový nástroj pro hledání nekonzistencí v trénovacích datech, k nimž při dlouhodobém rozšiřování trénovacích dat bohužel může snadno dojít.
References
Natalia Klyueva and Ondřej Bojar. UMC 0.1: Czech-Russian-English Multilingual Corpus. In Proc. of International Conference Corpus Linguistics, pages 188-195, October 2008.
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-kljueva_bojar_2008-2008-corpora-umc.pdf

Ondřej Bojar. Trainable Tokenizer (Perl implementation).
http://ufal.mff.cuni.cz/euromatrixplus/downloads.html

Le Zhang (2003): Maximum Entropy Modeling Toolkit for Python and C++.
http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html

Tibor Kiss, Jan Strunk (2006): Unsupervised Multilingual Sentence Boundary Detection. Computational Linguistics 32: 485-525.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html