PředmětyPředměty(verze: 908)
Předmět, akademický rok 2022/2023
   Přihlásit přes CAS
Statistický strojový překlad - NPFL087
Anglický název: Statistical Machine Translation
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: letní
E-Kredity: 5
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
Virtuální mobilita / počet míst: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/courses/npfl087
Garant: doc. RNDr. Ondřej Bojar, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Je neslučitelnost pro: NPFX087
Je záměnnost pro: NPFX087
Anotace -
Poslední úprava: T_UFAL (05.05.2017)
Účastníci semináře se podrobně seznámí s metodami strojového překladu (machine translation, MT) založenými na automatickém zpracování (velkého) množství trénovacích dat a rovněž s existujícími volně šiřitelnými implementacemi těchto metod. Probereme jak širokou škálů přístupů organizovanou podle dvou hlavních kritérií: hloubka lingvistické anotace (lingvisticky neinformovaný přístup, využití tvarosloví, povrchové a hloubkové větné skladby) a hloubka metod strojového učení (klasický statistický přístup, který překládá větu po částech, a neuronový přístup, který modeluje celou úlohu naráz).
Cíl předmětu -
Poslední úprava: T_UFAL (05.05.2017)

Předmět má dva hlavní cíle: 1. Představit široký přehled úspěšných metod MT od roku 1990 včetně nového vývoje díky hlubokému strojovému učení, který nastal po roce 2015. 2. Prohloubit technickou znalost a praktickou zkušenost s jedním z přístupů k MT nebo s některým z nástrojů užívaných v MT podle studentova výběru. Druhý z cílů často vede k publikaci vlastního příspěvku na vhodném workshopu.

Podmínky zakončení předmětu -
Poslední úprava: doc. RNDr. Ondřej Bojar, Ph.D. (17.06.2019)

Klíčové požadavky:

  • Práce na projektu (samostatně nebo ve skupince dvou nebo tří studentů),
  • Prezentace výsledků projektu (cca půlhodinová),
  • Závěrečná zpráva o projektu (odpovídá zhruba čtyřstránkovému vědeckému článku).

Výsledná známka je složena z dílčích výsledků podle těchto vah:

10% domácí úkoly a aktivita v průběhu hodin,

30% písemná zkouška,

50% zpráva z projektu,

10% prezentace projektu.

Zápočet se uděluje na základě průběžné práce na projektu během semestru. Zápočet není nutné získat před písemnou zkouškou.

Výsledná známka: ≥50% dobře, ≥70% velmi dobře, ≥90% výborně.

Literatura -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)
  • Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.
  • Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007. http://www.statmt.org/moses/
  • Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst: Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006. http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf
  • Ondřej Bojar: Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008. http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf
  • Bonnie J. Dorr, Pamela Jordan, John W. Benoit: A Survey of Current Paradigms in Machine Translation, 1998.
  • Philipp Koehn, Franz Josef Och and Daniel Marcu: Statistical Phrase-Based Translation. 2003. http://people.csail.mit.edu/people/koehn/publications/phrase2003.pdf
  • Zhifei Li, Chris Callison-Burch, Sanjeev Khudanpur, Wren Thornton: Decoding in Joshua: Open Source, Parsing-Based Machine Translation. PBML 91, 2009. http://ufal.mff.cuni.cz/pbml/91/art-li.pdf
  • Vamshi Ambati, Alon Lavier: Improving Syntax-Driven Translation Models by Re-structuring Divergent and Nonisomorphic Parse Tree Structures. In Proceedings of AMTA 2008, 235-244. http://www.mt-archive.info/AMTA-2008-Ambati.pdf
  • A další vybrané články z konferencí (ACL, COLING ap.), technické zprávy ÚFAL/CKL.
Sylabus -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)
  1. Metriky kvality strojového překladu (lidské i automatické). Empirické intervaly spolehlivosti a důvěryhodnost metrik obecně.
  2. Překlad jako problém z teorie informace. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéz a jeho prohledávání ("dekódování"), frázový překlad. Volně šiřitelný překladový systém Moses.
  3. Úvod do neuronového strojového překladu (NMT): přímý model pravděpodobnosti překladu, podslovní jednotky, embedingy, model sequence-to-sequence. Volně šiřitelné systémy jako Neural Monkey, Nematus, OpenNMT, Marian.
  4. Paralelní texty, jejich zarovnání (po větách a slovech; IBM modely 1 až 3). Volně šiřitelné nástroje pro přípravu a zarovnání paralelních textů (hunalign, GIZA++).
  5. Podrobnosti NMT: attention v modelu sequence-to-sequence, self-attention.
  6. Optimalizace: hledání parametrů log-lineárního modelu (Minimum Error Rate Training, MERT). Specifika trénování NMT.
  7. Rozšířené modely NMT: multi-task training, mnohojazyčný překlad, multi-modální překlad.
  8. Využití tvarosloví: morfologické předzpracování, využití tvaroslovné informace ve frázovém a neuronovém překladu.
  9. Složková syntax ve strojovém překladu, překlad založený na parsingu, obecné prohledávání hypergrafu hypotéz.
  10. Povrchová a hloubková závislostí syntax ve strojovém překladu včetně tektogramatické roviny a TectoMT. Kombinace hloubkového a frázového překladu.
  11. Prezentace vlastních příspěvků.
Vlastní příspěvky a klasifikace:
  • Jednotlivci či dvou až tříčlenné skupinky studentů si v rané fázi semestru zvolí téma příspěvku, provedou experimenty, implementují vlastní modifikaci některého z existujících systémů překladu či zprovozní prototyp alternativní metody a poreferují o výsledcích.
  • Cvičení k předmětu je určeno jak pro vedené procvičovaní probraných témat, tak pro konzultace k vlastním příspěvkům studentů.
  • Závěrečné hodnocení studentů se kromě ověření znalosti probrané látky opírá zejména o vlastní příspěvek studenta: jeho odborný popis a prezentaci.
 
Univerzita Karlova | Informační systém UK