Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Statistický strojový překlad - NPFL087

Anglický název:	Statistical Machine Translation
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2020
Semestr:	letní
E-Kredity:	5
Rozsah, examinace:	letní s.:2/2, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	vyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Další informace:	https://ufal.mff.cuni.cz/courses/npfl087

Garant:	prof. RNDr. Ondřej Bojar, Ph.D.
Vyučující:	prof. RNDr. Ondřej Bojar, Ph.D.
Třída:	DS, matematická lingvistika Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu:	Informatika > Počítačová a formální lingvistika
Je neslučitelnost pro:	NPFX087
Je záměnnost pro:	NPFX087

Výsledky anket Rozvrh LS Nástěnka

Anotace -

Účastníci se seznámí s metodami strojového překladu založenými na automatickém zpracování (velkého) množství trénovacích dat a rovněž s existujícími volně šiřitelnými implementacemi těchto metod. Probereme širokou škálu přístupů organizovanou podle dvou kritérií: hloubka lingvistické anotace (neinformovaný přístup, využití tvarosloví, povrchové a hloubkové větné skladby) a hloubka metod strojového učení (klasický statistický přístup, který překládá větu po částech, a neuronový přístup modelující celou úlohu naráz, s důrazem na model Transformer, který tvoří základ dnešních velkých modelů).

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (23.05.2025)

Cíl předmětu -

Předmět má dva hlavní cíle: 1. Představit široký přehled úspěšných metod MT od roku 1990 včetně nového vývoje díky hlubokému strojovému učení, který nastal po roce 2015, a další revoluce v podobě velkých jazykových modelů po roce 2022. 2. Prohloubit technickou znalost a praktickou zkušenost s jedním z přístupů k MT nebo s některým z nástrojů užívaných v MT podle studentova výběru. Druhý z cílů často vede k publikaci vlastního příspěvku na vhodném workshopu.

Poslední úprava: Mírovský Jiří, RNDr., Ph.D. (23.05.2025)

Podmínky zakončení předmětu -

Klíčové požadavky:

Práce na projektu (samostatně nebo ve skupince dvou nebo tří studentů),

Prezentace výsledků projektu (cca půlhodinová),

Závěrečná zpráva o projektu (odpovídá zhruba čtyřstránkovému vědeckému článku).

Výsledná známka je složena z dílčích výsledků podle těchto vah:

10% domácí úkoly a aktivita v průběhu hodin,

30% písemná zkouška,

50% zpráva z projektu,

10% prezentace projektu.

Zápočet se uděluje na základě průběžné práce na projektu během semestru. Zápočet není nutné získat před písemnou zkouškou.

Výsledná známka: ≥50% dobře, ≥70% velmi dobře, ≥90% výborně.

Poslední úprava: Bojar Ondřej, prof. RNDr., Ph.D. (17.06.2019)

Literatura -

Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/
Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst: Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006. http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf
Ondřej Bojar: Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008. http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
Bonnie J. Dorr, Pamela Jordan, John W. Benoit: A Survey of Current Paradigms in Machine Translation, 1998.
Philipp Koehn, Franz Josef Och and Daniel Marcu: Statistical Phrase-Based Translation. 2003. http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf
Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton: Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009. http://ufal.mff.cuni.cz/pbml/91/art-li.pdf
Vamshi Ambati, Alon Lavier: Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244. http://www.mt-archive.info/AMTA-2008-Ambati.pdf
A další vybrané články z konferencí (ACL, COLING ap.), technické zprávy ÚFAL/CKL.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)

Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/
Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst: Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006. http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf
Ondřej Bojar: Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008. http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
Bonnie J. Dorr, Pamela Jordan, John W. Benoit: A Survey of Current Paradigms in Machine Translation, 1998.
Philipp Koehn, Franz Josef Och and Daniel Marcu: Statistical Phrase-Based Translation. 2003. http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf
Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton: Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009. http://ufal.mff.cuni.cz/pbml/91/art-li.pdf
Vamshi Ambati, Alon Lavier: Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244. http://www.mt-archive.info/AMTA-2008-Ambati.pdf
A další vybrané články z konferencí (ACL, COLING ap.), technické zprávy ÚFAL/CKL.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)

Sylabus -

Metriky kvality strojového překladu (lidské i automatické). Empirické intervaly spolehlivosti a důvěryhodnost metrik obecně.
Překlad jako problém z teorie informace. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéz a jeho prohledávání ("dekódování"), frázový překlad. Volně šiřitelný překladový systém Moses.
Úvod do neuronového strojového překladu (NMT): přímý model pravděpodobnosti překladu, podslovní jednotky, embedingy, model sequence-to-sequence. Volně šiřitelné systémy jako Neural Monkey, Nematus, OpenNMT, Marian.
Paralelní texty, jejich zarovnání (po větách a slovech; IBM modely 1 až 3). Volně šiřitelné nástroje pro přípravu a zarovnání paralelních textů (hunalign, GIZA++).
Podrobnosti NMT: attention v modelu sequence-to-sequence, self-attention.
Optimalizace: hledání parametrů log-lineárního modelu (Minimum Error Rate Training, MERT). Specifika trénování NMT.
Rozšířené modely NMT: multi-task training, mnohojazyčný překlad, multi-modální překlad.
Využití tvarosloví: morfologické předzpracování, využití tvaroslovné informace ve frázovém a neuronovém překladu.
Složková syntax ve strojovém překladu, překlad založený na parsingu, obecné prohledávání hypergrafu hypotéz.
Povrchová a hloubková závislostí syntax ve strojovém překladu včetně tektogramatické roviny a TectoMT. Kombinace hloubkového a frázového překladu.
Prezentace vlastních příspěvků.

Vlastní příspěvky a klasifikace:

Jednotlivci či dvou až tříčlenné skupinky studentů si v rané fázi semestru zvolí téma příspěvku, provedou experimenty, implementují vlastní modifikaci některého z existujících systémů překladu či zprovozní prototyp alternativní metody a poreferují o výsledcích.
Cvičení k předmětu je určeno jak pro vedené procvičovaní probraných témat, tak pro konzultace k vlastním příspěvkům studentů.
Závěrečné hodnocení studentů se kromě ověření znalosti probrané látky opírá zejména o vlastní příspěvek studenta: jeho odborný popis a prezentaci.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)

Evaluating machine translation quality (manually and automatically). Empirical confidence bounds and reliability of MT metrics in general.
Machine translation as a problem in information theory. Translation model, language model, general log-linear model. The space of partial hypotheses and search in the space (the "decoding"), phrase-based translation. Open-source toolkit Moses.
Neural MT overview: a direct model of translation probability, subword units, embeddings, sequence-to-sequence model. Open-source toolkits such as Neural Monkey, Nematus, OpenNMT, Marian.
Parallel texts, alignment (sentence and word aligment, IBM models 1 to 3). Open source tools for corpus preparation and alignment (hunalign, GIZA++).
Neural MT details: attention in sequence-to-sequence models, self-attentive models.
Optimization: Tuning parameters of log-linear model (Minimum Error Rate Training, MERT). Specifics of training of neural MT.
Advanced NMT models: multi-task training, multi-lingual translation, multi-modal translation.
Morphological pre-processing, utilizing morphological information in phrase-based and neural MT.
Phrase-structure syntax in MT, translation based on (context-free) parsing. Generic hypergraph search.
Shallow and deep dependency syntax in MT, including tectogrammatical layer and TectoMT.
Presentation of students' contributions.

Students' contribution and grading:

Individuals or groups of two to three students choose a topic early in the term, set up some experiments, implement a modification of an existing MT system or run baseline experiments with an available prototype of an alternative MT method. Each of the projects is concluded by writing up a report and presenting the results in the lectures.
The tutorials ("cviceni") of the subject are devoted to practical application of the algorithms and toolkits described as well as for consulting students' projects.
The final grading reflects: the knowledge of discussed topics, the project report paper and the project presentation.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)