velikost textu

Mezijazykový přenos znalostí v úloze odpovídání na otázky

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Mezijazykový přenos znalostí v úloze odpovídání na otázky
Název v angličtině:
Crosslingual Transfer in Question Answering
Typ:
Diplomová práce
Autor:
Bc. Kateřina Macková
Vedoucí:
RNDr. Milan Straka, Ph.D.
Oponent:
Mgr. Rudolf Rosa
Id práce:
221320
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (N1801)
Obor studia:
Umělá inteligence (IUI)
Přidělovaný titul:
Mgr.
Datum obhajoby:
3. 2. 2020
Výsledek obhajoby:
Dobře
Jazyk práce:
Čeština
Klíčová slova:
odpovídání na otázky, transfer znalostí, SQuAD
Klíčová slova v angličtině:
question answering, crosslingual transfer, SQuAD
Abstrakt:
Question answering je disciplínou informatiky v oblasti zpracování přirozeného jazyka a získávání informací. Cílem je vytvořit systém, který automaticky najde odpověď na určitou otázku v textu. V dnešní době existuje spousta modelů trénovaných na obrovských tréninkových datových souborech v angličtině. Tato práce se zaměřuje na budování podobných modelů v češtině bez českých tréninkových datasetů. Při této práci jsme použili SQuAD 1.1 a přeložili jej do češtiny pro vytvoření trénovacích a testovacích datových souborů. Pak jsme trénovali a testovali modely BiDirectional Attention Flow a BERT. Nejlepší získaný výsledek na českém datasetu je z modelu BERT trénovaného na češtině s přesnou shodou 60,48% a skóre F1 73,46%. Kromě toho jsme také natrénovali model BERT na anglickém datasetu a vyhodnotili jsme ho na českém testovacím datasetu bez překladu. Dosáhli jsme přesné shody 63,71% a skóre F1 74,78%, což je mimořádně dobré navzdory tomu, že model dosud neviděl žádné české question answering data. Takový model je velmi univerzální a poskytuje systém odpovědí na otázky v jakémkoli jazyce, pro který máme dostatek monolingválních textů.
Abstract v angličtině:
Question answering is a computer science discipline in the field of natural language processing and information retrieval. The goal is to build a system that can automatically find an answer to a certain question in the text. Nowadays, there exist a lot of models trained on huge training data sets in English. This work focuses on building similar models in Czech without having any Czech training datasets. In this work, we have used SQuAD 1.1 and translated it to Czech to create training and development datasets. Then, we have trained and tested BiDirectional Attention Flow and BERT models. The best obtained result on the Czech dataset is from BERT model trained on Czech with exact match 60.48% and F1 score 73.46%. In addition, we have also trained BERT model on English dataset and we have evaluated it on Czech testing dataset without translation. We have reached exact match 63.71% and F1 score 74.78%, which is extremely good in spite of the fact that the model has not seen any Czech question answering data before. Such a model is very flexible and provide a question answering system in any language for which we have enough monolingual raw texts.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Kateřina Macková 1.45 MB
Stáhnout Příloha k práci Bc. Kateřina Macková 27.85 MB
Stáhnout Abstrakt v českém jazyce Bc. Kateřina Macková 228 kB
Stáhnout Abstrakt anglicky Bc. Kateřina Macková 221 kB
Stáhnout Posudek vedoucího RNDr. Milan Straka, Ph.D. 69 kB
Stáhnout Posudek oponenta Mgr. Rudolf Rosa 81 kB
Stáhnout Záznam o průběhu obhajoby prof. RNDr. Roman Barták, Ph.D. 152 kB