Empirical Models for an Indic Language Continuum
Název práce v češtině: | Empirické modely pro indické jazykové kontinuum |
---|---|
Název v anglickém jazyce: | Empirical Models for an Indic Language Continuum |
Klíčová slova: | vícejazyčná data|jazykové kontinuum|zpracování přirozeného jazyka |
Klíčová slova anglicky: | multilingual data|language continuum|Natural Language Processing |
Akademický rok vypsání: | 2021/2022 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 04.03.2022 |
Datum zadání: | 04.03.2022 |
Datum potvrzení stud. oddělením: | 28.04.2022 |
Datum a čas obhajoby: | 02.09.2022 09:00 |
Datum odevzdání elektronické podoby: | 20.07.2022 |
Datum odevzdání tištěné podoby: | 25.07.2022 |
Datum proběhlé obhajoby: | 02.09.2022 |
Oponenti: | RNDr. Daniel Zeman, Ph.D. |
Zásady pro vypracování |
One can observe a set of language varieties in some geographical areas, with neighboring varieties being mutually intelligible. An example is the Indo-Aryan language family in North India, with tens of languages and dialects ranging from Punjabi on west to Bengali on east. The goal of the thesis is to study this continuum by computational methods. The student will gather language data for languages and dialects from this family, will design and evaluate an empirical model for quantifying similarities and differences across the range of language varieties, and propose ways for employing such a model in modern Natural Language Processing applications. |
Seznam odborné literatury |
Chakravarthi, Bharathi Raja, et al. Findings of the VarDial Evaluation Campaign 2021. Proceedings of the 8th VarDial Workshop on NLP for Similar Languages, Varieties and Dialects. The Association for Computational Linguistics, 2021.
Paltridge, Brian, and Aek Phakiti, eds. Continuum companion to research methods in applied linguistics. A&C Black, 2010. Masica, Colin P. The indo-aryan languages. Cambridge University Press, 1993. Jha, Saurav, Akhilesh Sudhakar, and Anil Kumar Singh. Learning cross-lingual phonological and orthographic adaptations: a case study in improving neural machine translation between low-resource languages. arXiv preprint arXiv:1811.08816 (2018). |