Automatic inflection in Czech language
Název práce v češtině: | Automatické skloňování v češtině |
---|---|
Název v anglickém jazyce: | Automatic inflection in Czech language |
Klíčová slova: | automatické skloňování|morfologie|generování přirozeného jazyka|čeština|skloňování|flexe|neslovníková slova |
Klíčová slova anglicky: | automatic inflection|morphology|natural language generation|Czech language|inflection|declension|morphological inflection|out-of-vocabulary words |
Akademický rok vypsání: | 2022/2023 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Rudolf Rosa, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 02.11.2022 |
Datum zadání: | 02.11.2022 |
Datum potvrzení stud. oddělením: | 08.11.2022 |
Datum a čas obhajoby: | 07.09.2023 09:00 |
Datum odevzdání elektronické podoby: | 20.07.2023 |
Datum odevzdání tištěné podoby: | 20.07.2023 |
Datum proběhlé obhajoby: | 07.09.2023 |
Oponenti: | Mgr. Jonáš Vidra |
Konzultanti: | RNDr. Jana Straková, Ph.D. |
Zásady pro vypracování |
Cílem je implementovat knihovnu pro automatické skloňování podstatných jmen v češtině se zaměřením na slova neobsažená ve slovníku (OOV).
Vstupem bude podstatné jméno v základním tvaru (lemma), volitelně morfologická značka (tag). Výstupem budou všechny vyskloňované tvary (případně konkrétní tvar odpovídající zadanému tagu). Součástí práce bude vytvoření rozumně velké množiny development dat a testovacích dat (alespoň 100 vyskloňovaných, ručně zkontrolovaných lemmat) pro vyhodnocování průběhu vývoje a testování konečných modelů, implementace tohoto testování a porovnání úspěšnosti s implementovanými základními postupy (baselines) i s existujícími modely. Samotný skloňovací model by měl být implementován data-driven přístupem, například na principu retrográdního modelu, přepisovacích pravidel či generování výsledného tvaru znak po znaku; ideálně by mělo řešení implementovat a porovnat několik různých postupů (alespoň dva). Předpokládá se využití vhodných algoritmů strojového učení, například k nearest neighbours, support vector machines, či neuronové sítě. |
Seznam odborné literatury |
Ondřej Dušek and Filip Jurčíček. 2013. Robust multilingual statistical morphological generation models. In 51st Annual Meeting of the Association for Computational Linguistics Proceedings of the Student Research Workshop, pages 158–164, Sofia, Bulgaria. Association for Computational Linguistics. URL https://aclanthology.org/P13-3023
ÚFAL TR-2020-64 Marie Mikulová, Jan Hajič, Jiří Hana, Hana Hanová, Jaroslava Hlaváčová, Emil Jeřábek, Barbora Štěpánková, Barbora Vidová Hladká, Daniel Zeman: Manual for Morphological Annotation. Revision for Prague Dependency Treebank – Consolidated 2020 release. URL https://ufal.mff.cuni.cz/techrep/tr64.pdf Hajič, Jan; Hlaváčová, Jaroslava; Mikulová, Marie; Straka, Milan and Štěpánková, Barbora, 2020, MorfFlex CZ 2.0, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, URL http://hdl.handle.net/11234/1-3186 Jana Straková, Milan Straka, and Jan Hajič. 2014. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13–18, Baltimore, Maryland. Association for Computational Linguistics. URL https://aclanthology.org/P14-5003/ Chunting Zhou and Graham Neubig. 2017. Morphological Inflection Generation with Multi-space Variational Encoder-Decoders. In Proceedings of the CoNLL SIGMORPHON 2017 Shared Task: Universal Morphological Reinflection, pages 58–65, Vancouver. Association for Computational Linguistics. URL https://aclanthology.org/K17-2005/ |