Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Neřízená morfologie
Název práce v češtině: Neřízená morfologie
Název v anglickém jazyce: Unsupervised morphology
Klíčová slova: morfologie, neřízené učení, shlukování, zpracování přirozeného jazyka
Klíčová slova anglicky: morphology, unsupervised learning, clustering, natural language processing
Akademický rok vypsání: 2022/2023
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: Mgr. Rudolf Rosa, Ph.D.
Řešitel:
Konzultanti: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Zásady pro vypracování
The goal of the thesis is to cluster word forms belonging to one lemma (and to choose the form that is the lemma), and to cluster lemmata derived from each other. Ideally, this is to be done without training data and for tens or hundreds of languages.

Cílem práce je automaticky shlukovat slovní formy náležející k jednomu lematu (a vybrat formu, která je lematem), a shlukovat lemata od sebe odvozená. To vše nejlépe bez trénovacích dat a pro desítky či stovky jazyků.
Seznam odborné literatury
Olivier Bonami and Denis Paperno. 2018. Inflection vs. derivation in a distributional vector space. Lingue elinguaggio 17(2):173–196.
http://www.llf.cnrs.fr/sites/llf.cnrs.fr/files/biblio//LeL_BP_final.pdf

Rosa Rudolf, Žabokrtský Zdeněk: Attempting to separate inflection and derivation using vector space representations. DeriMo, 2019

Rosa Rudolf, Žabokrtský Zdeněk: Unsupervised Lemmatization as Embeddings-Based Word Clustering. Computing Research Repository, Vol. abs/1908.08528, Copyright © Cornell University, Ithaca, NY, USA, ISSN 2331-8422, pp. 1-5, Aug 2019
https://arxiv.org/abs/1908.08528

Magda Ševčíková and Zdeněk Žabokrtský. 2014. Word-Formation Network for Czech. In Proceedings of the 9th International Conference on Language Resources and Evaluation. ELRA, Reykjavik, Iceland, pages 1087–1093
http://ufal.mff.cuni.cz/derinet
Předběžná náplň práce
Jak poznat, že slovo "psovi" patří k lemmatu "pes", ale "psímu" patří k lemmatu "psí"?
Jak poznat, že "hodinky" jsou odvozené od slova "hodina", ale "holinky" nikoliv?
Jak to udělat bez trénovacích dat?
A jak to udělat pro desítky či stovky jazyků?
 
Univerzita Karlova | Informační systém UK