Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Robustní automatická identifikace jazyka neznámého textu

Název práce v češtině:	Robustní automatická identifikace jazyka neznámého textu
Název v anglickém jazyce:	Robust language identification of uknown text
Klíčová slova:	identifikace jazyka, jazykové modelování
Klíčová slova anglicky:	language identification, language modeling
Akademický rok vypsání:	2014/2015
Typ práce:	diplomová práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:

Zásady pro vypracování

Identifikace jazyka textů na současném tak rozsáhlém multilinguálním webu je čím dál tím větším problémem. Dříve byla značná část obsahu na webu editována, jednotlivé stránky většinou jednojazyčné a relativně dlouhé. Identifikace jazyka za takových podmínek byla relativně jednoduchá (dlouhý a korektní text v jednom jazyce). V éře sociálních sítí a mikroblogování se situace stěžuje. Velká část obsahuje na dnešním webu je tvořena běžnými uživateli: diskusní fóra, čtenářské diskuse u článků, recenze, diskuse na sociálních sítích, atp. vedou k tomu, že velké množství textu už není editováno, pravopisné chyby jsou mnohem častější, používání interpunkce téměř nahodilé, na jedné stránce mohou být části v různých jazycích, příspěvky jsou krátké, plné slangových výrazů a nových zkratek. Strojové zpracování takových dat vyžaduje ve většině případů identifikaci jazyka a to na segmentech, které mohou být velice krátké (od jednoho slova).

Cílem diplomové práce je navrhnout, implementovat a otestovat nástroj pro automatickou identifikaci jazyka psaného textu. Metoda bude založena na klasických přístupech (slovníky, jazykové znakové modely, apod.) kombinovaných metodami strojového učení. V práci budou použita jazyková data získaná z Wikipedie a dalších volně přístupných zdrojů.

Seznam odborné literatury

Erik Tromp and Mykola Pechenizkiy. Graph-Based N-gram Language Identification on Short Texts
In the Proceedings of The 20th Annual Belgian-Dutch Conference on Machine Learning. 2011.

Shane Bergsma, Paul McNamee, Mossaab Bagdouri, Clayton Fink, Theresa Wilson. Language Identification for Creating Language-Specific Twitter Collections. NAACL-HLT 2012 workshop on Language and Social Media (LSM-12), Montreal, Canada, June 2012.