Thesis (Selection of subject)Thesis (Selection of subject)(version: 356)
Assignment details
   Login via CAS
Vyhledávání nových slov v textech
Thesis title in Czech: Vyhledávání nových slov v textech
Thesis title in English: Search for new words in texts
Key words: neologismus, morfologie, morfologický guesser, lexikografie
English key words: neologism, morphology, morphological guesser, lexicography
Academic year of topic announcement: 2021/2022
Type of assignment: Bachelor's thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Jaroslava Hlaváčová, Ph.D.
Author:
Guidelines
Cílem je vytvořit automatickou proceduru, která z daných českých textů vybere kandidáty na nová slova. Ta se po ověření a základní analýze přidají do slovníku neologismů spolu se všemi relevantními údaji, které lze z dat získat, včetně příkladu.
Práce sestává z částí:
1. Vytipování neznámých slov pomocí existujícího morfologického analyzátoru a ověření jejich "novosti" v již existujícím slovníku neologismů
2. Filtrace nalezených tipů - odstranění překlepů, (cizích) vlastních jmen, zkratek, neslovních řetězců
3. Použití guesseru (existujícího) na určení slovního druhu
4. Automatické zařazení nového slova do slovníku neologismů
References
Hajič J.: Disambiguation of Rich Inflection: Computational Morphology of Czech. Karolinum 2004
Straková J., Straka M., Hajič J.: Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. ACL 2014

Preliminary scope of work
V českém jazyce stále přibývají nová slova. Vytvářejí se z cizích základů (např. googlovat), nebo jde o odborné termíny, slangové výrazy apod. Tato nová slova je možné automaticky vytipovat v různých zdrojích, přiřadit jim i správný slovní druh a automaticky je zařadit do slovníku neologismů.
Preliminary scope of work in English
New words appear continually in the Czech language. They are created from foreign words (eg. googlovat), or they are technical terms, slang expressions, etc. These new words can be automatically identified in different sources and added to the dictionary of neologisms, including automatic assignment of correct part of speech.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html