Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Empirical Models for an Indic Language Continuum

Název práce v češtině:	Empirické modely pro indické jazykové kontinuum
Název v anglickém jazyce:	Empirical Models for an Indic Language Continuum
Klíčová slova:	vícejazyčná data\|jazykové kontinuum\|zpracování přirozeného jazyka
Klíčová slova anglicky:	multilingual data\|language continuum\|Natural Language Processing
Akademický rok vypsání:	2021/2022
Typ práce:	diplomová práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. Ing. Zdeněk Žabokrtský, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	04.03.2022
Datum zadání:	04.03.2022
Datum potvrzení stud. oddělením:	28.04.2022
Datum a čas obhajoby:	02.09.2022 09:00
Datum odevzdání elektronické podoby:	20.07.2022
Datum odevzdání tištěné podoby:	25.07.2022
Datum proběhlé obhajoby:	02.09.2022
Oponenti:	RNDr. Daniel Zeman, Ph.D.

Zásady pro vypracování

One can observe a set of language varieties in some geographical areas, with neighboring varieties being mutually intelligible. An example is the Indo-Aryan language family in North India, with tens of languages and dialects ranging from Punjabi on west to Bengali on east. The goal of the thesis is to study this continuum by computational methods. The student will gather language data for languages and dialects from this family, will design and evaluate an empirical model for quantifying similarities and differences across the range of language varieties, and propose ways for employing such a model in modern Natural Language Processing applications.

Seznam odborné literatury

Chakravarthi, Bharathi Raja, et al. Findings of the VarDial Evaluation Campaign 2021. Proceedings of the 8th VarDial Workshop on NLP for Similar Languages, Varieties and Dialects. The Association for Computational Linguistics, 2021.
Paltridge, Brian, and Aek Phakiti, eds. Continuum companion to research methods in applied linguistics. A&C Black, 2010.
Masica, Colin P. The indo-aryan languages. Cambridge University Press, 1993.
Jha, Saurav, Akhilesh Sudhakar, and Anil Kumar Singh. Learning cross-lingual phonological and orthographic adaptations: a case study in improving neural machine translation between low-resource languages. arXiv preprint arXiv:1811.08816 (2018).