Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Neřízená morfologie

Thesis title in Czech:	Neřízená morfologie
Thesis title in English:	Unsupervised morphology
Key words:	morfologie, neřízené učení, shlukování, zpracování přirozeného jazyka
English key words:	morphology, unsupervised learning, clustering, natural language processing
Academic year of topic announcement:	2022/2023
Thesis type:	diploma thesis
Thesis language:
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	Mgr. Rudolf Rosa, Ph.D.
Author:
Advisors:	doc. Ing. Zdeněk Žabokrtský, Ph.D.

Guidelines

The goal of the thesis is to cluster word forms belonging to one lemma (and to choose the form that is the lemma), and to cluster lemmata derived from each other. Ideally, this is to be done without training data and for tens or hundreds of languages.

Cílem práce je automaticky shlukovat slovní formy náležející k jednomu lematu (a vybrat formu, která je lematem), a shlukovat lemata od sebe odvozená. To vše nejlépe bez trénovacích dat a pro desítky či stovky jazyků.

References

Olivier Bonami and Denis Paperno. 2018. Inflection vs. derivation in a distributional vector space. Lingue elinguaggio 17(2):173–196.
http://www.llf.cnrs.fr/sites/llf.cnrs.fr/files/biblio//LeL_BP_final.pdf

Rosa Rudolf, Žabokrtský Zdeněk: Attempting to separate inflection and derivation using vector space representations. DeriMo, 2019

Rosa Rudolf, Žabokrtský Zdeněk: Unsupervised Lemmatization as Embeddings-Based Word Clustering. Computing Research Repository, Vol. abs/1908.08528, Copyright © Cornell University, Ithaca, NY, USA, ISSN 2331-8422, pp. 1-5, Aug 2019
https://arxiv.org/abs/1908.08528

Magda Ševčíková and Zdeněk Žabokrtský. 2014. Word-Formation Network for Czech. In Proceedings of the 9th International Conference on Language Resources and Evaluation. ELRA, Reykjavik, Iceland, pages 1087–1093
http://ufal.mff.cuni.cz/derinet

Preliminary scope of work

Jak poznat, že slovo "psovi" patří k lemmatu "pes", ale "psímu" patří k lemmatu "psí"?
Jak poznat, že "hodinky" jsou odvozené od slova "hodina", ale "holinky" nikoliv?
Jak to udělat bez trénovacích dat?
A jak to udělat pro desítky či stovky jazyků?