Participants will get acquainted with methods of machine translation that rely on automatic processing of (large) training data as well as with open-source implementations of these methods. We will cover a range of approaches organized along two axes: the level of linguistic analysis (uninformed, utilizing
morphology, surface and deep syntax) and the depth of machine learning methods (classical statistical MT that decomposes input into pieces and neural MT that models the task end to end; a particular focus is given to the Transformer model which forms the basis of the current large models).
Last update: Mírovský Jiří, RNDr., Ph.D. (23.05.2025)
Účastníci se seznámí s metodami strojového překladu založenými na automatickém zpracování (velkého) množství trénovacích dat a rovněž s existujícími volně šiřitelnými implementacemi těchto metod. Probereme širokou škálu přístupů organizovanou podle dvou kritérií: hloubka lingvistické anotace
(neinformovaný přístup, využití tvarosloví, povrchové a hloubkové větné skladby) a hloubka metod strojového učení (klasický statistický přístup, který překládá větu po částech, a neuronový přístup modelující celou úlohu naráz, s důrazem na model Transformer, který tvoří základ dnešních velkých modelů).
Last update: Mírovský Jiří, RNDr., Ph.D. (23.05.2025)
Aim of the course -
The goal is to provide (1) a big overview of successful approaches to MT since 1990, including the recent developments due to deep learning after 2015 and due to large language models after 2022, and (2) detailed technical knowledge and practical experience with one of the approaches or some MT-related tool according to the student's choice. The second goal often leads to the publication of the student's work at a relevant workshop.
Last update: Mírovský Jiří, RNDr., Ph.D. (23.05.2025)
Předmět má dva hlavní cíle: 1. Představit široký přehled úspěšných metod MT od roku 1990 včetně nového vývoje díky hlubokému strojovému učení, který nastal po roce 2015, a další revoluce v podobě velkých jazykových modelů po roce 2022. 2. Prohloubit technickou znalost a praktickou zkušenost s jedním z přístupů k MT nebo s některým z nástrojů užívaných v MT podle studentova výběru. Druhý z cílů často vede k publikaci vlastního příspěvku na vhodném workshopu.
Last update: Mírovský Jiří, RNDr., Ph.D. (23.05.2025)
Course completion requirements -
Key requirements:
Work on a project (alone or in a group of two to three).
Present project results (~30-minute talk).
Write a report (~4-page scientific paper).
Contributions to the grade:
10% homework and activity,
30% written exam,
50% project report,
10% project presentation.
The 'credit' (zapocet) is given based on the continuous work on the project throughout the semester. The 'credit' is not required prior to the written exam.
Final Grade: ≥50% good, ≥70% very good, ≥90% excellent.
Last update: Bojar Ondřej, doc. RNDr., Ph.D. (17.06.2019)
Klíčové požadavky:
Práce na projektu (samostatně nebo ve skupince dvou nebo tří studentů),
Prezentace výsledků projektu (cca půlhodinová),
Závěrečná zpráva o projektu (odpovídá zhruba čtyřstránkovému vědeckému článku).
Výsledná známka je složena z dílčích výsledků podle těchto vah:
10% domácí úkoly a aktivita v průběhu hodin,
30% písemná zkouška,
50% zpráva z projektu,
10% prezentace projektu.
Zápočet se uděluje na základě průběžné práce na projektu během semestru. Zápočet není nutné získat před písemnou zkouškou.
Výsledná známka: ≥50% dobře, ≥70% velmi dobře, ≥90% výborně.
Last update: Bojar Ondřej, doc. RNDr., Ph.D. (17.06.2019)
Literature -
Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit
for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/
Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst:
Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006.
http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf
Ondřej Bojar:
Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008.
http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
Bonnie J. Dorr, Pamela Jordan, John W. Benoit:
A Survey of Current Paradigms in Machine Translation, 1998.
Philipp Koehn, Franz Josef Och and Daniel Marcu:
Statistical Phrase-Based Translation. 2003.
http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf
Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton:
Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009.
http://ufal.mff.cuni.cz/pbml/91/art-li.pdf
Vamshi Ambati, Alon Lavier:
Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244.
http://www.mt-archive.info/AMTA-2008-Ambati.pdf
A další vybrané články z konferencí (ACL, COLING ap.), technické zprávy
ÚFAL/CKL.