Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Automatic inflection in Czech language
Thesis title in Czech: Automatické skloňování v češtině
Thesis title in English: Automatic inflection in Czech language
Key words: automatické skloňování|morfologie|generování přirozeného jazyka|čeština|skloňování|flexe|neslovníková slova
English key words: automatic inflection|morphology|natural language generation|Czech language|inflection|declension|morphological inflection|out-of-vocabulary words
Academic year of topic announcement: 2022/2023
Thesis type: Bachelor's thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Rudolf Rosa, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 02.11.2022
Date of assignment: 02.11.2022
Confirmed by Study dept. on: 08.11.2022
Date and time of defence: 07.09.2023 09:00
Date of electronic submission:20.07.2023
Date of submission of printed version:20.07.2023
Date of proceeded defence: 07.09.2023
Opponents: Mgr. Jonáš Vidra
 
 
 
Advisors: RNDr. Jana Straková, Ph.D.
Guidelines
Cílem je implementovat knihovnu pro automatické skloňování podstatných jmen v češtině se zaměřením na slova neobsažená ve slovníku (OOV).

Vstupem bude podstatné jméno v základním tvaru (lemma), volitelně morfologická značka (tag).
Výstupem budou všechny vyskloňované tvary (případně konkrétní tvar odpovídající zadanému tagu).

Součástí práce bude vytvoření rozumně velké množiny development dat a testovacích dat (alespoň 100 vyskloňovaných, ručně zkontrolovaných lemmat) pro vyhodnocování průběhu vývoje a testování konečných modelů, implementace tohoto testování a porovnání úspěšnosti s implementovanými základními postupy (baselines) i s existujícími modely.

Samotný skloňovací model by měl být implementován data-driven přístupem, například na principu retrográdního modelu, přepisovacích pravidel či generování výsledného tvaru znak po znaku; ideálně by mělo řešení implementovat a porovnat několik různých postupů (alespoň dva). Předpokládá se využití vhodných algoritmů strojového učení, například k nearest neighbours, support vector machines, či neuronové sítě.
References
Ondřej Dušek and Filip Jurčíček. 2013. Robust multilingual statistical morphological generation models. In 51st Annual Meeting of the Association for Computational Linguistics Proceedings of the Student Research Workshop, pages 158–164, Sofia, Bulgaria. Association for Computational Linguistics. URL https://aclanthology.org/P13-3023

ÚFAL TR-2020-64 Marie Mikulová, Jan Hajič, Jiří Hana, Hana Hanová, Jaroslava Hlaváčová, Emil Jeřábek, Barbora Štěpánková, Barbora Vidová Hladká, Daniel Zeman: Manual for Morphological Annotation. Revision for Prague Dependency Treebank – Consolidated 2020 release. URL https://ufal.mff.cuni.cz/techrep/tr64.pdf

Hajič, Jan; Hlaváčová, Jaroslava; Mikulová, Marie; Straka, Milan and Štěpánková, Barbora, 2020, MorfFlex CZ 2.0, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, URL http://hdl.handle.net/11234/1-3186

Jana Straková, Milan Straka, and Jan Hajič. 2014. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13–18, Baltimore, Maryland. Association for Computational Linguistics. URL https://aclanthology.org/P14-5003/

Chunting Zhou and Graham Neubig. 2017. Morphological Inflection Generation with Multi-space Variational Encoder-Decoders. In Proceedings of the CoNLL SIGMORPHON 2017 Shared Task: Universal Morphological Reinflection, pages 58–65, Vancouver. Association for Computational Linguistics. URL https://aclanthology.org/K17-2005/
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html