Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Statistický strojový překlad - NPFL087

Anglický název:	Statistical Machine Translation
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2010 do 2019
Semestr:	letní
E-Kredity:	6
Rozsah, examinace:	letní s.:2/2, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	vyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Způsob výuky:	prezenční

Garant:	doc. RNDr. Ondřej Bojar, Ph.D.
Třída:	DS, matematická lingvistika Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu:	Informatika > Počítačová a formální lingvistika

Výsledky anket Termíny zkoušek Rozvrh Nástěnka

Anotace -

Poslední úprava: T_UFAL (05.05.2017)

Účastníci semináře se podrobně seznámí s metodami strojového překladu (machine translation, MT) založenými na automatickém zpracování (velkého) množství trénovacích dat a rovněž s existujícími volně šiřitelnými implementacemi těchto metod. Probereme jak lingvisticky neinformovaný, tzv. frázový překlad, tak i více či méně lingvisticky motivované postupy až po syntaktický překlad. Klasifikace se bude opírat zejména o vlastní příspěvky studentů experimentální, implementační nebo referativní povahy.

Cíl předmětu

Poslední úprava: T_UFAL (05.05.2017)

Seznámit studenty s metodami statického strojového překladu i se současnými volně šiřitelnými implementacemi systémů strojového překladu. V praktických úlohách se studenti dle svého uvážení dozvědí více o alternativních přístupech ke strojovému překladu, vyzkoušejí si, jak obtížné je zvýšit kvalitu frázového překladu nasazením vlastních nápadů, či samostatnou vědeckou prací přispějí k součaným poznatkům na poli strojového překladu.

Literatura -

Poslední úprava: T_UFAL (05.05.2017)

Philipp Koehn:

Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.

Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst:

Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.

http://www.statmt.org/moses/

Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst:

Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006.

http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf

Ondřej Bojar:

Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008.

http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf

Bonnie J. Dorr, Pamela Jordan, John W. Benoit:

A Survey of Current Paradigms in Machine Translation, 1998.

Philipp Koehn, Franz Josef Och and Daniel Marcu:

Statistical Phrase-Based Translation. 2003.

http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf

Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton:

Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.

http://ufal.mff.cuni.cz/pbml/91/art-li.pdf

Vamshi Ambati, Alon Lavier:

Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244.

http://www.mt-archive.info/AMTA-2008-Ambati.pdf

A daląí vybrané články z konferencí (ACL, COLING ap.), technické zprávy

ÚFAL/CKL.

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)

Philipp Koehn:

Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.

Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.

http://www.statmt.org/moses/

http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf

Ondřej Bojar:

Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008.

http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf

Bonnie J. Dorr, Pamela Jordan, John W. Benoit:

A Survey of Current Paradigms in Machine Translation, 1998.

Philipp Koehn, Franz Josef Och and Daniel Marcu:

Statistical Phrase-Based Translation. 2003.

http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf

Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton:

Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.

http://ufal.mff.cuni.cz/pbml/91/art-li.pdf

Vamshi Ambati, Alon Lavier:

Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244.

http://www.mt-archive.info/AMTA-2008-Ambati.pdf

A daląí vybrané články z konferencí (ACL, COLING ap.), technické zprávy

ÚFAL/CKL.

Sylabus -

Poslední úprava: T_UFAL (05.05.2017)

1. Metriky kvality strojového překladu (lidské i automatické). Empirické intervaly spolehlivosti a důvěryhodnost metrik obecně.

2. Překlad jako problém z teorie informace. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéy a jeho prohledávání ("dekódování"). Frázový překlad, volně ąiřitelný překladový systém Moses.

3. Paralelní texty, jejich zarovnání (po větách a slovech; IBM modely 1 aľ 3) a extrakce "překladových slovníků" a pravidel z paralelních dat. Volně ąiřitelné nástroje pro přípravu a zarovnání paralelních textů (hunalign, GIZA++).

4. Morfologické předzpracování, frázový překlad o více faktorech. Empirické výsledky a teoretické problémy (přílią hrubé prořezávání).

5. Optimalizace parametrů log-lineárního modelu (Minimum Error Rate Training, MERT).

6. Složková syntax ve strojovém překladu, překlad založený na parsingu, obecný hypergrafový dekodér. Volně šiřitelné nástroje pro syntakticky informovaný strojový překlad (Hiero, Joshua, SAMT, Stat-XFER).

7. Závislostí syntax ve strojovém překladu (Quirk a Menezes, Bojar).

8. Hloubková syntax ve strojovém překladu (TectoMT). Prostředí TectoMT.

9. Prezentace vlastních příspěvků.

Vlastní příspěvky a klasifikace:

Jednotlivci či dvou až tříčlenné skupinky studentů si v rané fázi semestru zvolí téma příspěvku, provedou experimenty, implementují vlastní modifikaci některého z existujících systémů překladu či zprovozní prototyp alternativní metody a poreferují o výsledcích.

Cvičení k předmětu je určeno jak pro vedené procvičovaní probraných témat, tak pro konzultace k vlastním příspěvkům studentů.

Závěrečné hodnocení studentů se kromě ověření znalosti probrané látky opírá zejména o vlastní příspěvek studenta: jeho odborný popis a prezentaci.

Náměty témat studentských příspěvků:

experimentální

košatost stavového prostoru: názorné vyčíslení empirické složitosti rozhodnutí, která musí překladový systém provádět

vliv množství a typu trénovacích dat na kvalitu překladu

česko-evropský překlad: překlad mezi češtinou a všemi evropskými jazyky

vlastní nápady na předzpracování vstupu či dodatečné rysy pro lepší kvalitu překladu

normalizace trénovacích dat pro lepší kvalitu překladu

limity (meze) frázového (či jiného) modelu: jaký podíl referenčních překladů testovacích dat systém nemá šanci vyrobit při daných trénovacích datech? A jaká lingvistická zobecnění by potřeboval, aby daná trénovací data stačila?

analýza ručních korektur výstupů strojového překladu, jak byly sebrány v rámci soutěľe WMT09 (http://www.statmt.org/wmt09/)

implementační, namátkou:

MERT, který odstraní málo informativní rysy modelu

jednoduchý webový portál pro sběr a validaci zdrojů paralelních textů silou komunity

referativní, namátkou:

diskriminativní metody pro strojový překlad

SEARN: Hal Daumé III. Practical Structured Learning Techniques for Natural Language Processing. PhD Thesis, 2006 (USC).

MBMT: Antal van den Bosch, Peter Berck. Memory-Based Machine Translation and Language Modeling. PBML 91. 2009.

Poslední úprava: T_UFAL (05.05.2017)

1. Evaluating machine translation quality (manually and automatically). Empirical confidence bounds and reliability of MT metrics in general.

2. Machine translation as a problem in information theory. Translation model, language model, general log-linear model. The space of partial hypotheses and search in the space (the "decoding"). Phrase-based translation, open-source toolkit Moses.

3. Parallel texts, alignment (sentence and word aligment, IBM models 1 to 3). Extraction of "translation dictionaries" and rules from the parallel texts. Open source tools for corpus preparation and alignment (hunalign, GIZA++).

4. Morphological pre-processing, phrase-based translation with additional factors. Experimental results and issues (too crude pruning).

5. Tuning parameters of log-linear model (Minimum Error Rate Training, MERT).

6. Phrase-structure syntax in MT, translation based on (context-free) parsing, generic hypergraph decoder. Open source tools for syntactically-informed MT (Hiero, Joshua, SAMT, Stat-XFER).

7. Dependency syntax in MT (Quirk and Menezes, Bojar).

8. Deep syntax in MT (TectoMT). The TectoMT platform.

9. Presentation of students' contributions.

Students' contribution and grading:

Individuals or groups of two to three students choose a topic early in the term, set up some experiments, implement a modification of an existing MT system or run baseline experiments with an available prototype of an alternative MT method. Each of the projects is concluded by writing up a report and presenting the results in the lectures.

The tutorials ("cviceni") of the subject are devoted to practical application of the algorithms and toolkits described as well as for consulting students' projects.

The final grading reflects: the knowledge of discussed topics, the project report paper and the project presentation.