Vyhledávání nových slov v textech
Thesis title in Czech: | Vyhledávání nových slov v textech |
---|---|
Thesis title in English: | Search for new words in texts |
Key words: | neologismus, morfologie, morfologický guesser, lexikografie |
English key words: | neologism, morphology, morphological guesser, lexicography |
Academic year of topic announcement: | 2021/2022 |
Thesis type: | Bachelor's thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | RNDr. Jaroslava Hlaváčová, Ph.D. |
Author: |
Guidelines |
Cílem je vytvořit automatickou proceduru, která z daných českých textů vybere kandidáty na nová slova. Ta se po ověření a základní analýze přidají do slovníku neologismů spolu se všemi relevantními údaji, které lze z dat získat, včetně příkladu.
Práce sestává z částí: 1. Vytipování neznámých slov pomocí existujícího morfologického analyzátoru a ověření jejich "novosti" v již existujícím slovníku neologismů 2. Filtrace nalezených tipů - odstranění překlepů, (cizích) vlastních jmen, zkratek, neslovních řetězců 3. Použití guesseru (existujícího) na určení slovního druhu 4. Automatické zařazení nového slova do slovníku neologismů |
References |
Hajič J.: Disambiguation of Rich Inflection: Computational Morphology of Czech. Karolinum 2004
Straková J., Straka M., Hajič J.: Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. ACL 2014 |
Preliminary scope of work |
V českém jazyce stále přibývají nová slova. Vytvářejí se z cizích základů (např. googlovat), nebo jde o odborné termíny, slangové výrazy apod. Tato nová slova je možné automaticky vytipovat v různých zdrojích, přiřadit jim i správný slovní druh a automaticky je zařadit do slovníku neologismů. |
Preliminary scope of work in English |
New words appear continually in the Czech language. They are created from foreign words (eg. googlovat), or they are technical terms, slang expressions, etc. These new words can be automatically identified in different sources and added to the dictionary of neologisms, including automatic assignment of correct part of speech. |