Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Spolehlivá extrakce paralelních vět z paralelních a srovnatelných korpusů
Název práce v češtině: Spolehlivá extrakce paralelních vět z paralelních a srovnatelných korpusů
Název v anglickém jazyce: Reliable extraction of parallel senteces from parallel and comparable corpora
Klíčová slova: paralelní korpusy, větné párování, extrakce vět, odhad spolehlivosti
Klíčová slova anglicky: parallel corpora, comparable corpora, sentence alignment, sentence extraction, confidence estimation
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:
Zásady pro vypracování
Paralelní data ve formě množin paralelních vět (párů vět ve dvou jazycích) jsou nezbytná pro trénovaní systémů statistického strojového překladu. Na jejich kvalitě a množství přímo závisí kvalita výsledného překladu. Zdrojem těchto dat jsou často korpusy paralelních textů, tedy párů dokumentů ve dvou jazycích, ve kterých je třeba paralelní věty identifikovat, tedy označit páry vět, které jsou svým vlastním překladem. Tato úloha bývá označována jako větné zarovnávání (sentence alignment) a její řešení je v případě přesných (doslovných) překladů relativně jednoduché a spolehlivé. Příkladem velice přesných překladů jsou např. legislativní nebo právnické texty, ve kterých jde typicky o zachování významu jednotlivých vět, jejichž pořadí se nemění, nepřidávají se ani neubírají žádné informace. Překlady např. novinových článků, ve kterých není zachování významu na úrovni vět nezbytné, bývají méně přesné. Ještě volnější jsou obvykle texty beletristické, kde bývá význam zachováván spíše u větších celků a nemalý důraz je kladen na uměleckou stránku překladu. Větné zarovnání v těchto případech je samozřejmě obtížnější. Ještě složitější je situace v případě, že jde o texty, které jsou si podobné pouze tématicky. Paralelních vět je v nich výrazně méně a jejich identifikace obtížná.

Cílem diplomové práce je navrhnout, implementovat a experimentálně otestovat metodu pro extrakci paralelních vět z korpusů s různou úrovní přesnosti překladu. Navržená metoda bude založena na větném zarovnávání a odhadu jeho spolehlivosti.
Seznam odborné literatury
Jörg Tiedemann. Bitext alignment. Synthesis lectures on human language technologies Morgan & Claypool Publishers, 2011, ISBN 978-1-60845-510-2.

Gökhan H. Bakir, Thomas Hofmann, Bernhard Schölkopf, Alexander J. Smola, Ben Taskar and S. V. N. Vishwanathan. Predicting Structured Data. MIT Press, Cambridge, MA. 2007.
 
Univerzita Karlova | Informační systém UK