text size

Parsing under-resourced languages: Cross-lingual transfer strategies for Indian languages

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Title:
Parsing under-resourced languages: Cross-lingual transfer strategies for Indian languages
Type:
Dissertation
Author:
Loganathan Ramasamy, M.Sc., Ph.D.
Supervisor:
doc. Ing. Zdeněk Žabokrtský, Ph.D.
Opponents:
RNDr. Otakar Smrž, Ph.D.
RNDr. Daniel Zeman, Ph.D.
Thesis Id:
85724
Faculty:
Faculty of Mathematics and Physics (MFF)
Department:
Institute of Formal and Applied Linguistics (32-UFAL)
Study programm:
Computer Science (P1801)
Study branch:
Mathematical Linguistics (4I3)
Degree granted:
Ph.D.
Defence date:
23/09/2014
Defence result:
Pass
Language:
English
Abstract (in czech):
Klíč k rychlému přizpůsobení jazykových technologií pro libovolný jazyk závisí na dostupnosti základních nástrojů a datových zdrojů, jako jsou jednojazyčné nebo paralelní korpusy, anotované korpusy, značkovače slovních druhů, syntaktické analyzátory, a podobně. Jazyky, pro něž tyto základní zdroje neexistují, označujeme jako zdrojově chudé jazyky. V této práci se zabýváme otázkou závislostního syntaktického rozboru zdrojově chudých jazyků za pomoci zdrojů pro jiné jazyky. Pro nalezení závislostní struktury používáme tři postupy: (i) promítnutí závislostí ze zdrojově bohatého jazyka do zdrojově chudého jazyka za pomoci slovního zarovnání v paralelním korpusu (ii) analýze pod-zdroji jazyků pomocí parserů, jejichž modely jsou vyškoleni na stromových korpusů z jiných jazyků, a nedívejte se na skutečných slovních forem, ale pouze na POS kategorie. Zde se zabýváme problémem neslučitelnosti různých anotačních stylů používaných zdrojovými analyzátory a cílovými závislostně anotovanými korpusy používanými pro evaluaci, který řešíme pomocí harmonizace anotací do jednotného standardu; a konečně (iii) zavádíme nový postup, ve kterém pro promítnutí závislostí do zdrojově chudého jazyka používáme paralelní korpusy vytvořené pomocí strojového překladu namísto lidského překladu. Výše uvedené postupy jsme použili na pět indických jazyků: hindštinu, urdštinu, telugštinu, bengálštinu a tamilštinu (seřazeno sestupně podle dostupnosti závislostně anotovaných dat). Abychom prokázali použitelnost uvedených postupů v praxi, vyvinuli jsme závislostně anotovaný korpus pro tamilštinu, pro niž dosud žádný takový zdroj neexistoval, a takto získaná data využíváme pro evaluaci a také jako zdroj pro závislostní rozbor jiných indických jazyků. Nakonec jsme seznam se strategie, které může být použit k získání závislost struktury pro cílových jazyků pod jiný scénáře s omezenými zdroji. Powered by TCPDF (www.tcpdf.org)
Abstract:
Key to fast adaptation of language technologies for any language hinges on the availability of fundamental tools and resources such as monolingual/parallel corpora, annotated corpora, part-of-speech (POS) taggers, parsers and so on. The languages which lack those fundamental resources are often referred as under-resourced languages. In this thesis, we address the problem of cross-lingual dependency parsing of under-resourced languages. We apply three methodologies to induce dependency structures: (i) projecting dependencies from a resource-rich language to under-resourced languages via parallel corpus word alignment links (ii) parsing under-resourced languages using parsers whose models are trained on treebanks of other languages, and do not look at actual word forms, but only on POS categories. Here we address the problem of incompatibilities in annotation styles between source side parsers and target side evaluation treebanks by harmonizing annotations to a common standard; and finally (iii) we add a new under-resourced scenario in which we use machine translated parallel corpora instead of human translated corpora for projecting dependencies to under-resourced languages. We apply the aforementioned methodologies to five Indian languages (ILs): Hindi, Urdu, Telugu, Bengali and Tamil (in the order of high to low availability of treebank data). To make the evaluation possible for Tamil, we develop a dependency treebank resource for Tamil from scratch and we use the created data in evaluation and as a source in parsing other ILs. Finally, we list out strategies that can be used to obtain dependency structures for target languages under different resource-poor scenarios. Powered by TCPDF (www.tcpdf.org)
Documents
Download Document Author Type File size
Download Text of the thesis Loganathan Ramasamy, M.Sc., Ph.D. 4.59 MB
Download Abstract in czech Loganathan Ramasamy, M.Sc., Ph.D. 152 kB
Download Abstract in english Loganathan Ramasamy, M.Sc., Ph.D. 151 kB
Download Supervisor's review doc. Ing. Zdeněk Žabokrtský, Ph.D. 56 kB
Download Opponent's review RNDr. Otakar Smrž, Ph.D. 336 kB
Download Opponent's review RNDr. Daniel Zeman, Ph.D. 106 kB
Download Defence's report 314 kB