velikost textu

Parsing under-resourced languages: Cross-lingual transfer strategies for Indian languages

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Parsing under-resourced languages: Cross-lingual transfer strategies for Indian languages
Typ:
Disertační práce
Autor:
Loganathan Ramasamy, M.Sc., Ph.D.
Školitel:
doc. Ing. Zdeněk Žabokrtský, Ph.D.
Oponenti:
RNDr. Otakar Smrž, Ph.D.
RNDr. Daniel Zeman, Ph.D.
Id práce:
85724
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (P1801)
Obor studia:
Matematická lingvistika (4I3)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
23. 9. 2014
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Abstrakt:
Klíč k rychlému přizpůsobení jazykových technologií pro libovolný jazyk závisí na dostupnosti základních nástrojů a datových zdrojů, jako jsou jednojazyčné nebo paralelní korpusy, anotované korpusy, značkovače slovních druhů, syntaktické analyzátory, a podobně. Jazyky, pro něž tyto základní zdroje neexistují, označujeme jako zdrojově chudé jazyky. V této práci se zabýváme otázkou závislostního syntaktického rozboru zdrojově chudých jazyků za pomoci zdrojů pro jiné jazyky. Pro nalezení závislostní struktury používáme tři postupy: (i) promítnutí závislostí ze zdrojově bohatého jazyka do zdrojově chudého jazyka za pomoci slovního zarovnání v paralelním korpusu (ii) analýze pod-zdroji jazyků pomocí parserů, jejichž modely jsou vyškoleni na stromových korpusů z jiných jazyků, a nedívejte se na skutečných slovních forem, ale pouze na POS kategorie. Zde se zabýváme problémem neslučitelnosti různých anotačních stylů používaných zdrojovými analyzátory a cílovými závislostně anotovanými korpusy používanými pro evaluaci, který řešíme pomocí harmonizace anotací do jednotného standardu; a konečně (iii) zavádíme nový postup, ve kterém pro promítnutí závislostí do zdrojově chudého jazyka používáme paralelní korpusy vytvořené pomocí strojového překladu namísto lidského překladu. Výše uvedené postupy jsme použili na pět indických jazyků: hindštinu, urdštinu, telugštinu, bengálštinu a tamilštinu (seřazeno sestupně podle dostupnosti závislostně anotovaných dat). Abychom prokázali použitelnost uvedených postupů v praxi, vyvinuli jsme závislostně anotovaný korpus pro tamilštinu, pro niž dosud žádný takový zdroj neexistoval, a takto získaná data využíváme pro evaluaci a také jako zdroj pro závislostní rozbor jiných indických jazyků. Nakonec jsme seznam se strategie, které může být použit k získání závislost struktury pro cílových jazyků pod jiný scénáře s omezenými zdroji. Powered by TCPDF (www.tcpdf.org)
Abstract v angličtině:
Key to fast adaptation of language technologies for any language hinges on the availability of fundamental tools and resources such as monolingual/parallel corpora, annotated corpora, part-of-speech (POS) taggers, parsers and so on. The languages which lack those fundamental resources are often referred as under-resourced languages. In this thesis, we address the problem of cross-lingual dependency parsing of under-resourced languages. We apply three methodologies to induce dependency structures: (i) projecting dependencies from a resource-rich language to under-resourced languages via parallel corpus word alignment links (ii) parsing under-resourced languages using parsers whose models are trained on treebanks of other languages, and do not look at actual word forms, but only on POS categories. Here we address the problem of incompatibilities in annotation styles between source side parsers and target side evaluation treebanks by harmonizing annotations to a common standard; and finally (iii) we add a new under-resourced scenario in which we use machine translated parallel corpora instead of human translated corpora for projecting dependencies to under-resourced languages. We apply the aforementioned methodologies to five Indian languages (ILs): Hindi, Urdu, Telugu, Bengali and Tamil (in the order of high to low availability of treebank data). To make the evaluation possible for Tamil, we develop a dependency treebank resource for Tamil from scratch and we use the created data in evaluation and as a source in parsing other ILs. Finally, we list out strategies that can be used to obtain dependency structures for target languages under different resource-poor scenarios. Powered by TCPDF (www.tcpdf.org)
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Loganathan Ramasamy, M.Sc., Ph.D. 4.59 MB
Stáhnout Abstrakt v českém jazyce Loganathan Ramasamy, M.Sc., Ph.D. 152 kB
Stáhnout Abstrakt anglicky Loganathan Ramasamy, M.Sc., Ph.D. 151 kB
Stáhnout Posudek vedoucího doc. Ing. Zdeněk Žabokrtský, Ph.D. 56 kB
Stáhnout Posudek oponenta RNDr. Otakar Smrž, Ph.D. 336 kB
Stáhnout Posudek oponenta RNDr. Daniel Zeman, Ph.D. 106 kB
Stáhnout Záznam o průběhu obhajoby 314 kB