Robustní automatická identifikace jazyka neznámého textu
Název práce v češtině: | Robustní automatická identifikace jazyka neznámého textu |
---|---|
Název v anglickém jazyce: | Robust language identification of uknown text |
Klíčová slova: | identifikace jazyka, jazykové modelování |
Klíčová slova anglicky: | language identification, language modeling |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Identifikace jazyka textů na současném tak rozsáhlém multilinguálním webu je čím dál tím větším problémem. Dříve byla značná část obsahu na webu editována, jednotlivé stránky většinou jednojazyčné a relativně dlouhé. Identifikace jazyka za takových podmínek byla relativně jednoduchá (dlouhý a korektní text v jednom jazyce). V éře sociálních sítí a mikroblogování se situace stěžuje. Velká část obsahuje na dnešním webu je tvořena běžnými uživateli: diskusní fóra, čtenářské diskuse u článků, recenze, diskuse na sociálních sítích, atp. vedou k tomu, že velké množství textu už není editováno, pravopisné chyby jsou mnohem častější, používání interpunkce téměř nahodilé, na jedné stránce mohou být části v různých jazycích, příspěvky jsou krátké, plné slangových výrazů a nových zkratek. Strojové zpracování takových dat vyžaduje ve většině případů identifikaci jazyka a to na segmentech, které mohou být velice krátké (od jednoho slova).
Cílem diplomové práce je navrhnout, implementovat a otestovat nástroj pro automatickou identifikaci jazyka psaného textu. Metoda bude založena na klasických přístupech (slovníky, jazykové znakové modely, apod.) kombinovaných metodami strojového učení. V práci budou použita jazyková data získaná z Wikipedie a dalších volně přístupných zdrojů. |
Seznam odborné literatury |
Erik Tromp and Mykola Pechenizkiy. Graph-Based N-gram Language Identification on Short Texts
In the Proceedings of The 20th Annual Belgian-Dutch Conference on Machine Learning. 2011. Shane Bergsma, Paul McNamee, Mossaab Bagdouri, Clayton Fink, Theresa Wilson. Language Identification for Creating Language-Specific Twitter Collections. NAACL-HLT 2012 workshop on Language and Social Media (LSM-12), Montreal, Canada, June 2012. |