Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 384)
Detail práce
   Přihlásit přes CAS
Vyhledávání nových slov v textech
Název práce v češtině: Vyhledávání nových slov v textech
Název v anglickém jazyce: Search for new words in texts
Klíčová slova: neologismus, morfologie, morfologický guesser, lexikografie
Klíčová slova anglicky: neologism, morphology, morphological guesser, lexicography
Akademický rok vypsání: 2021/2022
Typ práce: bakalářská práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Jaroslava Hlaváčová, Ph.D.
Řešitel:
Zásady pro vypracování
Cílem je vytvořit automatickou proceduru, která z daných českých textů vybere kandidáty na nová slova. Ta se po ověření a základní analýze přidají do slovníku neologismů spolu se všemi relevantními údaji, které lze z dat získat, včetně příkladu.
Práce sestává z částí:
1. Vytipování neznámých slov pomocí existujícího morfologického analyzátoru a ověření jejich "novosti" v již existujícím slovníku neologismů
2. Filtrace nalezených tipů - odstranění překlepů, (cizích) vlastních jmen, zkratek, neslovních řetězců
3. Použití guesseru (existujícího) na určení slovního druhu
4. Automatické zařazení nového slova do slovníku neologismů
Seznam odborné literatury
Hajič J.: Disambiguation of Rich Inflection: Computational Morphology of Czech. Karolinum 2004
Straková J., Straka M., Hajič J.: Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. ACL 2014

Předběžná náplň práce
V českém jazyce stále přibývají nová slova. Vytvářejí se z cizích základů (např. googlovat), nebo jde o odborné termíny, slangové výrazy apod. Tato nová slova je možné automaticky vytipovat v různých zdrojích, přiřadit jim i správný slovní druh a automaticky je zařadit do slovníku neologismů.
Předběžná náplň práce v anglickém jazyce
New words appear continually in the Czech language. They are created from foreign words (eg. googlovat), or they are technical terms, slang expressions, etc. These new words can be automatically identified in different sources and added to the dictionary of neologisms, including automatic assignment of correct part of speech.
 
Univerzita Karlova | Informační systém UK