Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Neřízená morfologie
Thesis title in Czech: Neřízená morfologie
Thesis title in English: Unsupervised morphology
Key words: morfologie, neřízené učení, shlukování, zpracování přirozeného jazyka
English key words: morphology, unsupervised learning, clustering, natural language processing
Academic year of topic announcement: 2022/2023
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Rudolf Rosa, Ph.D.
Author:
Advisors: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Guidelines
The goal of the thesis is to cluster word forms belonging to one lemma (and to choose the form that is the lemma), and to cluster lemmata derived from each other. Ideally, this is to be done without training data and for tens or hundreds of languages.

Cílem práce je automaticky shlukovat slovní formy náležející k jednomu lematu (a vybrat formu, která je lematem), a shlukovat lemata od sebe odvozená. To vše nejlépe bez trénovacích dat a pro desítky či stovky jazyků.
References
Olivier Bonami and Denis Paperno. 2018. Inflection vs. derivation in a distributional vector space. Lingue elinguaggio 17(2):173–196.
http://www.llf.cnrs.fr/sites/llf.cnrs.fr/files/biblio//LeL_BP_final.pdf

Rosa Rudolf, Žabokrtský Zdeněk: Attempting to separate inflection and derivation using vector space representations. DeriMo, 2019

Rosa Rudolf, Žabokrtský Zdeněk: Unsupervised Lemmatization as Embeddings-Based Word Clustering. Computing Research Repository, Vol. abs/1908.08528, Copyright © Cornell University, Ithaca, NY, USA, ISSN 2331-8422, pp. 1-5, Aug 2019
https://arxiv.org/abs/1908.08528

Magda Ševčíková and Zdeněk Žabokrtský. 2014. Word-Formation Network for Czech. In Proceedings of the 9th International Conference on Language Resources and Evaluation. ELRA, Reykjavik, Iceland, pages 1087–1093
http://ufal.mff.cuni.cz/derinet
Preliminary scope of work
Jak poznat, že slovo "psovi" patří k lemmatu "pes", ale "psímu" patří k lemmatu "psí"?
Jak poznat, že "hodinky" jsou odvozené od slova "hodina", ale "holinky" nikoliv?
Jak to udělat bez trénovacích dat?
A jak to udělat pro desítky či stovky jazyků?
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html