Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Automatic inflection in Czech language

Název práce v češtině:	Automatické skloňování v češtině
Název v anglickém jazyce:	Automatic inflection in Czech language
Klíčová slova:	automatické skloňování\|morfologie\|generování přirozeného jazyka\|čeština\|skloňování\|flexe\|neslovníková slova
Klíčová slova anglicky:	automatic inflection\|morphology\|natural language generation\|Czech language\|inflection\|declension\|morphological inflection\|out-of-vocabulary words
Akademický rok vypsání:	2022/2023
Typ práce:	bakalářská práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	Mgr. Rudolf Rosa, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	02.11.2022
Datum zadání:	02.11.2022
Datum potvrzení stud. oddělením:	08.11.2022
Datum a čas obhajoby:	07.09.2023 09:00
Datum odevzdání elektronické podoby:	20.07.2023
Datum odevzdání tištěné podoby:	20.07.2023
Datum proběhlé obhajoby:	07.09.2023
Oponenti:	Mgr. Jonáš Vidra



Konzultanti:	RNDr. Jana Straková, Ph.D.

Zásady pro vypracování

Cílem je implementovat knihovnu pro automatické skloňování podstatných jmen v češtině se zaměřením na slova neobsažená ve slovníku (OOV).

Vstupem bude podstatné jméno v základním tvaru (lemma), volitelně morfologická značka (tag).
Výstupem budou všechny vyskloňované tvary (případně konkrétní tvar odpovídající zadanému tagu).

Součástí práce bude vytvoření rozumně velké množiny development dat a testovacích dat (alespoň 100 vyskloňovaných, ručně zkontrolovaných lemmat) pro vyhodnocování průběhu vývoje a testování konečných modelů, implementace tohoto testování a porovnání úspěšnosti s implementovanými základními postupy (baselines) i s existujícími modely.

Samotný skloňovací model by měl být implementován data-driven přístupem, například na principu retrográdního modelu, přepisovacích pravidel či generování výsledného tvaru znak po znaku; ideálně by mělo řešení implementovat a porovnat několik různých postupů (alespoň dva). Předpokládá se využití vhodných algoritmů strojového učení, například k nearest neighbours, support vector machines, či neuronové sítě.

Seznam odborné literatury

Ondřej Dušek and Filip Jurčíček. 2013. Robust multilingual statistical morphological generation models. In 51st Annual Meeting of the Association for Computational Linguistics Proceedings of the Student Research Workshop, pages 158–164, Sofia, Bulgaria. Association for Computational Linguistics. URL https://aclanthology.org/P13-3023

ÚFAL TR-2020-64 Marie Mikulová, Jan Hajič, Jiří Hana, Hana Hanová, Jaroslava Hlaváčová, Emil Jeřábek, Barbora Štěpánková, Barbora Vidová Hladká, Daniel Zeman: Manual for Morphological Annotation. Revision for Prague Dependency Treebank – Consolidated 2020 release. URL https://ufal.mff.cuni.cz/techrep/tr64.pdf

Hajič, Jan; Hlaváčová, Jaroslava; Mikulová, Marie; Straka, Milan and Štěpánková, Barbora, 2020, MorfFlex CZ 2.0, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, URL http://hdl.handle.net/11234/1-3186

Jana Straková, Milan Straka, and Jan Hajič. 2014. Open-Source Tools for Morphology, Lemmatization, POS Tagging and Named Entity Recognition. In Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 13–18, Baltimore, Maryland. Association for Computational Linguistics. URL https://aclanthology.org/P14-5003/

Chunting Zhou and Graham Neubig. 2017. Morphological Inflection Generation with Multi-space Variational Encoder-Decoders. In Proceedings of the CoNLL SIGMORPHON 2017 Shared Task: Universal Morphological Reinflection, pages 58–65, Vancouver. Association for Computational Linguistics. URL https://aclanthology.org/K17-2005/