Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Mezijazykový přenos znalostí v úloze odpovídání na otázky

Název práce v češtině:	Mezijazykový přenos znalostí v úloze odpovídání na otázky
Název v anglickém jazyce:	Crosslingual Transfer in Question Answering
Klíčová slova:	odpovídání na otázky, transfer znalostí, SQuAD
Klíčová slova anglicky:	question answering, crosslingual transfer, SQuAD
Akademický rok vypsání:	2019/2020
Typ práce:	diplomová práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	RNDr. Milan Straka, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	03.12.2019
Datum zadání:	03.12.2019
Datum potvrzení stud. oddělením:	10.12.2019
Datum a čas obhajoby:	03.02.2020 09:00
Datum odevzdání elektronické podoby:	09.01.2020
Datum odevzdání tištěné podoby:	06.01.2020
Datum proběhlé obhajoby:	03.02.2020
Oponenti:	Mgr. Rudolf Rosa, Ph.D.

Zásady pro vypracování

Question answering is a long studied task, with dozens of datasets for English. However, the resources for other languages are much less frequent.

The goal of this thesis is to devise a method to train question answering system for Czech, based on the well known SQuAD question answering dataset. Apart from simple translation-based baselines, a suitable crosslingual transfer method (building up for example on bilingual word embeddings or on multilingual BERT pretraining) should be devised and evaluated.

Seznam odborné literatury

- Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang. SQuAD: 100,000+ Questions for Machine Comprehension of Text, https://arxiv.org/abs/1606.05250

- Minjoon Seo, Aniruddha Kembhavi, Ali Farhadi, Hannaneh Hajishirzi. Bidirectional Attention Flow for Machine Comprehension, https://arxiv.org/abs/1611.01603

- Mikel Artetxe, Gorka Labaka, Eneko Agirre. A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings, https://arxiv.org/abs/1805.06297

- Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, https://arxiv.org/abs/1810.04805