Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Robustní automatická identifikace jazyka neznámého textu
Název práce v češtině: Robustní automatická identifikace jazyka neznámého textu
Název v anglickém jazyce: Robust language identification of uknown text
Klíčová slova: identifikace jazyka, jazykové modelování
Klíčová slova anglicky: language identification, language modeling
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:
Zásady pro vypracování
Identifikace jazyka textů na současném tak rozsáhlém multilinguálním webu je čím dál tím větším problémem. Dříve byla značná část obsahu na webu editována, jednotlivé stránky většinou jednojazyčné a relativně dlouhé. Identifikace jazyka za takových podmínek byla relativně jednoduchá (dlouhý a korektní text v jednom jazyce). V éře sociálních sítí a mikroblogování se situace stěžuje. Velká část obsahuje na dnešním webu je tvořena běžnými uživateli: diskusní fóra, čtenářské diskuse u článků, recenze, diskuse na sociálních sítích, atp. vedou k tomu, že velké množství textu už není editováno, pravopisné chyby jsou mnohem častější, používání interpunkce téměř nahodilé, na jedné stránce mohou být části v různých jazycích, příspěvky jsou krátké, plné slangových výrazů a nových zkratek. Strojové zpracování takových dat vyžaduje ve většině případů identifikaci jazyka a to na segmentech, které mohou být velice krátké (od jednoho slova).

Cílem diplomové práce je navrhnout, implementovat a otestovat nástroj pro automatickou identifikaci jazyka psaného textu. Metoda bude založena na klasických přístupech (slovníky, jazykové znakové modely, apod.) kombinovaných metodami strojového učení. V práci budou použita jazyková data získaná z Wikipedie a dalších volně přístupných zdrojů.
Seznam odborné literatury
Erik Tromp and Mykola Pechenizkiy. Graph-Based N-gram Language Identification on Short Texts
In the Proceedings of The 20th Annual Belgian-Dutch Conference on Machine Learning. 2011.

Shane Bergsma, Paul McNamee, Mossaab Bagdouri, Clayton Fink, Theresa Wilson. Language Identification for Creating Language-Specific Twitter Collections. NAACL-HLT 2012 workshop on Language and Social Media (LSM-12), Montreal, Canada, June 2012.
 
Univerzita Karlova | Informační systém UK