Vyhledávání nových slov v textech
Název práce v češtině: | Vyhledávání nových slov v textech |
---|---|
Název v anglickém jazyce: | Search for new words in texts |
Klíčová slova: | neologismus, morfologie, morfologický guesser, lexikografie |
Klíčová slova anglicky: | neologism, morphology, morphological guesser, lexicography |
Akademický rok vypsání: | 2021/2022 |
Typ práce: | bakalářská práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Jaroslava Hlaváčová, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Cílem je vytvořit automatickou proceduru, která z daných českých textů vybere kandidáty na nová slova. Ta se po ověření a základní analýze přidají do slovníku neologismů spolu se všemi relevantními údaji, které lze z dat získat, včetně příkladu.
Práce sestává z částí: 1. Vytipování neznámých slov pomocí existujícího morfologického analyzátoru a ověření jejich "novosti" v již existujícím slovníku neologismů 2. Filtrace nalezených tipů - odstranění překlepů, (cizích) vlastních jmen, zkratek, neslovních řetězců 3. Použití guesseru (existujícího) na určení slovního druhu 4. Automatické zařazení nového slova do slovníku neologismů |
Seznam odborné literatury |
Hajič J.: Disambiguation of Rich Inflection: Computational Morphology of Czech. Karolinum 2004
Straková J., Straka M., Hajič J.: Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. ACL 2014 |
Předběžná náplň práce |
V českém jazyce stále přibývají nová slova. Vytvářejí se z cizích základů (např. googlovat), nebo jde o odborné termíny, slangové výrazy apod. Tato nová slova je možné automaticky vytipovat v různých zdrojích, přiřadit jim i správný slovní druh a automaticky je zařadit do slovníku neologismů. |
Předběžná náplň práce v anglickém jazyce |
New words appear continually in the Czech language. They are created from foreign words (eg. googlovat), or they are technical terms, slang expressions, etc. These new words can be automatically identified in different sources and added to the dictionary of neologisms, including automatic assignment of correct part of speech. |