Neřízená morfologie
Thesis title in Czech: | Neřízená morfologie |
---|---|
Thesis title in English: | Unsupervised morphology |
Key words: | morfologie, neřízené učení, shlukování, zpracování přirozeného jazyka |
English key words: | morphology, unsupervised learning, clustering, natural language processing |
Academic year of topic announcement: | 2022/2023 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | Mgr. Rudolf Rosa, Ph.D. |
Author: | |
Advisors: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Guidelines |
The goal of the thesis is to cluster word forms belonging to one lemma (and to choose the form that is the lemma), and to cluster lemmata derived from each other. Ideally, this is to be done without training data and for tens or hundreds of languages.
Cílem práce je automaticky shlukovat slovní formy náležející k jednomu lematu (a vybrat formu, která je lematem), a shlukovat lemata od sebe odvozená. To vše nejlépe bez trénovacích dat a pro desítky či stovky jazyků. |
References |
Olivier Bonami and Denis Paperno. 2018. Inflection vs. derivation in a distributional vector space. Lingue elinguaggio 17(2):173–196.
http://www.llf.cnrs.fr/sites/llf.cnrs.fr/files/biblio//LeL_BP_final.pdf Rosa Rudolf, Žabokrtský Zdeněk: Attempting to separate inflection and derivation using vector space representations. DeriMo, 2019 Rosa Rudolf, Žabokrtský Zdeněk: Unsupervised Lemmatization as Embeddings-Based Word Clustering. Computing Research Repository, Vol. abs/1908.08528, Copyright © Cornell University, Ithaca, NY, USA, ISSN 2331-8422, pp. 1-5, Aug 2019 https://arxiv.org/abs/1908.08528 Magda Ševčíková and Zdeněk Žabokrtský. 2014. Word-Formation Network for Czech. In Proceedings of the 9th International Conference on Language Resources and Evaluation. ELRA, Reykjavik, Iceland, pages 1087–1093 http://ufal.mff.cuni.cz/derinet |
Preliminary scope of work |
Jak poznat, že slovo "psovi" patří k lemmatu "pes", ale "psímu" patří k lemmatu "psí"?
Jak poznat, že "hodinky" jsou odvozené od slova "hodina", ale "holinky" nikoliv? Jak to udělat bez trénovacích dat? A jak to udělat pro desítky či stovky jazyků? |