Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Spolehlivá extrakce paralelních vět z paralelních a srovnatelných korpusů

Thesis title in Czech:	Spolehlivá extrakce paralelních vět z paralelních a srovnatelných korpusů
Thesis title in English:	Reliable extraction of parallel senteces from parallel and comparable corpora
Key words:	paralelní korpusy, větné párování, extrakce vět, odhad spolehlivosti
English key words:	parallel corpora, comparable corpora, sentence alignment, sentence extraction, confidence estimation
Academic year of topic announcement:	2014/2015
Thesis type:	diploma thesis
Thesis language:
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	doc. RNDr. Pavel Pecina, Ph.D.
Author:

Guidelines

Paralelní data ve formě množin paralelních vět (párů vět ve dvou jazycích) jsou nezbytná pro trénovaní systémů statistického strojového překladu. Na jejich kvalitě a množství přímo závisí kvalita výsledného překladu. Zdrojem těchto dat jsou často korpusy paralelních textů, tedy párů dokumentů ve dvou jazycích, ve kterých je třeba paralelní věty identifikovat, tedy označit páry vět, které jsou svým vlastním překladem. Tato úloha bývá označována jako větné zarovnávání (sentence alignment) a její řešení je v případě přesných (doslovných) překladů relativně jednoduché a spolehlivé. Příkladem velice přesných překladů jsou např. legislativní nebo právnické texty, ve kterých jde typicky o zachování významu jednotlivých vět, jejichž pořadí se nemění, nepřidávají se ani neubírají žádné informace. Překlady např. novinových článků, ve kterých není zachování významu na úrovni vět nezbytné, bývají méně přesné. Ještě volnější jsou obvykle texty beletristické, kde bývá význam zachováván spíše u větších celků a nemalý důraz je kladen na uměleckou stránku překladu. Větné zarovnání v těchto případech je samozřejmě obtížnější. Ještě složitější je situace v případě, že jde o texty, které jsou si podobné pouze tématicky. Paralelních vět je v nich výrazně méně a jejich identifikace obtížná.

Cílem diplomové práce je navrhnout, implementovat a experimentálně otestovat metodu pro extrakci paralelních vět z korpusů s různou úrovní přesnosti překladu. Navržená metoda bude založena na větném zarovnávání a odhadu jeho spolehlivosti.

References

Jörg Tiedemann. Bitext alignment. Synthesis lectures on human language technologies Morgan & Claypool Publishers, 2011, ISBN 978-1-60845-510-2.

Gökhan H. Bakir, Thomas Hofmann, Bernhard Schölkopf, Alexander J. Smola, Ben Taskar and S. V. N. Vishwanathan. Predicting Structured Data. MIT Press, Cambridge, MA. 2007.