velikost textu

Multilingual Learning using Syntactic Multi-Task Training

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Multilingual Learning using Syntactic Multi-Task Training
Název v češtině:
Vícejazyčné učení pomocí víceúlohového trénování syntaxe
Typ:
Diplomová práce
Autor:
Mgr. Daniel Kondratyuk
Vedoucí:
RNDr. Milan Straka, Ph.D.
Oponent:
RNDr. David Mareček, Ph.D.
Id práce:
211732
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (N1801)
Obor studia:
Matematická lingvistika (IMLA)
Přidělovaný titul:
Mgr.
Datum obhajoby:
11. 6. 2019
Výsledek obhajoby:
Výborně
Jazyk práce:
Angličtina
Abstract v angličtině:
Abstract Recent research has shown promise in multilingual modeling, demonstrating how a single model is capable of learning tasks across several languages. However, typical recurrent neural models fail to scale beyond a small number of related lan- guages and can be quite detrimental if multiple distant languages are grouped together for training. This thesis introduces a simple method that does not have this scaling problem, producing a single multi-task model that predicts universal part-of-speech, morphological features, lemmas, and dependency trees simultane- ously for 124 Universal Dependencies treebanks across 75 languages. By leverag- ing the multilingual BERT model pretrained on 104 languages, we apply several modifications and fine-tune it on all available Universal Dependencies training data. The resulting model, we call UDify, can closely match or exceed state-of- the-art UPOS, UFeats, Lemmas, (and especially) UAS, and LAS scores, without requiring any recurrent or language-specific components. We evaluate UDify for multilingual learning, showing that low-resource languages benefit the most from cross-linguistic annotations. We also evaluate UDify for zero-shot learning, with results suggesting that multilingual training provides strong UD predictions even for languages that neither UDify nor BERT have ever been trained on. Finally, we provide evidence to explain why pretrained self-attention networks like BERT may excel in multilingual dependency parsing. 1
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Daniel Kondratyuk 3.59 MB
Stáhnout Abstrakt anglicky Mgr. Daniel Kondratyuk 28 kB
Stáhnout Posudek vedoucího RNDr. Milan Straka, Ph.D. 61 kB
Stáhnout Posudek oponenta RNDr. David Mareček, Ph.D. 69 kB
Stáhnout Záznam o průběhu obhajoby doc. RNDr. Markéta Lopatková, Ph.D. 152 kB