PředmětyPředměty(verze: 845)
Předmět, akademický rok 2018/2019
   Přihlásit přes CAS
Statistický strojový překlad - NPFL087
Anglický název: Statistical Machine Translation
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2010 do 2019
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Garant: doc. RNDr. Ondřej Bojar, Ph.D.
Třída: DS, matematická lingvistika
Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: T_UFAL (05.05.2017)
Účastníci semináře se podrobně seznámí s metodami strojového překladu (machine translation, MT) založenými na automatickém zpracování (velkého) množství trénovacích dat a rovněž s existujícími volně šiřitelnými implementacemi těchto metod. Probereme jak širokou škálů přístupů organizovanou podle dvou hlavních kritérií: hloubka lingvistické anotace (lingvisticky neinformovaný přístup, využití tvarosloví, povrchové a hloubkové větné skladby) a hloubka metod strojového učení (klasický statistický přístup, který překládá větu po částech, a neuronový přístup, který modeluje celou úlohu naráz).
Cíl předmětu -
Poslední úprava: T_UFAL (05.05.2017)

Předmět má dva hlavní cíle: 1. Představit široký přehled úspěšných metod MT od roku 1990 včetně nového vývoje díky hlubokému strojovému učení, který nastal po roce 2015. 2. Prohloubit technickou znalost a praktickou zkušenost s jedním z přístupů k MT nebo s některým z nástrojů užívaných v MT podle studentova výběru. Druhý z cílů často vede k publikaci vlastního příspěvku na vhodném workshopu.

Podmínky zakončení předmětu -
Poslední úprava: doc. RNDr. Ondřej Bojar, Ph.D. (17.06.2019)

Klíčové požadavky:

  • Práce na projektu (samostatně nebo ve skupince dvou nebo tří studentů),
  • Prezentace výsledků projektu (cca půlhodinová),
  • Závěrečná zpráva o projektu (odpovídá zhruba čtyřstránkovému vědeckému článku).

Výsledná známka je složena z dílčích výsledků podle těchto vah:

10% domácí úkoly a aktivita v průběhu hodin,

30% písemná zkouška,

50% zpráva z projektu,

10% prezentace projektu.

Zápočet se uděluje na základě průběžné práce na projektu během semestru. Zápočet není nutné získat před písemnou zkouškou.

Výsledná známka: ≥50% dobře, ≥70% velmi dobře, ≥90% výborně.

Literatura -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)

Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.

Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning. MIT Press. 2016. http://www.deeplearningbook.org/

Phil Blunsom et al.: Materials for the Deep Natural Language Processing course offered in Hilary Term 2017, University of Oxford. https://github.com/oxford-cs-deepnlp-2017/lectures

Ondřej Bojar: Čeština a strojový překlad. ÚFAL, Praha, Czechia, ISBN 978-80-904571-4-0, 168 pp. 2012.

Ondřej Bojar: Exploiting Linguistic Data in Machine Translation. PhD thesis, ÚFAL, MFF UK, Prague, Czech Republic, October 2008. https://ufal.mff.cuni.cz/books/2009-bojar http://ufal.mff.cuni.cz/~bojar/publications/2008-FILE-bojar_phd-FINAL.pdf

Sylabus -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)

1. Metriky kvality strojového překladu (lidské i automatické). Empirické intervaly spolehlivosti a důvěryhodnost metrik obecně.

2. Překlad jako problém z teorie informace. Překladový a jazykový model, obecný log-lineární model. Stavový prostor částečných hypotéz a jeho prohledávání ("dekódování"), frázový překlad. Volně šiřitelný překladový systém Moses.

3. Úvod do neuronového strojového překladu (NMT): přímý model pravděpodobnosti překladu, embedingy, model sequence-to-sequence. Volně šiřitelné systémy jako Neural Monkey a Nematus.

4. Paralelní texty, jejich zarovnání (po větách a slovech; IBM modely 1 až 3). Volně šiřitelné nástroje pro přípravu a zarovnání paralelních textů (hunalign, GIZA++).

5. Podrobnosti NMT: attention v modelu sequence-to-sequence, multi-task training, mnohojazyčný překlad.

6. Optimalizace: hledání parametrů log-lineárního modelu (Minimum Error Rate Training, MERT). Aspekty trénování NMT.

7. Morfologické předzpracování, využití tvaroslovné informace ve frázovém a neuronovém překladu.

8. Složková syntax ve strojovém překladu, překlad založený na parsingu, obecné prohledávání hypergrafovu hypotéz.

9. Povrchová a hloubková závislostí syntax ve strojovém překladu včetně tektogramatické roviny a TectoMT.

10. Prezentace vlastních příspěvků.

Vlastní příspěvky a klasifikace:

Jednotlivci či dvou až tříčlenné skupinky studentů si v rané fázi semestru zvolí téma příspěvku, provedou experimenty, implementují vlastní modifikaci některého z existujících systémů překladu či zprovozní prototyp alternativní metody a poreferují o výsledcích.

Cvičení k předmětu je určeno jak pro vedené procvičovaní probraných témat, tak pro konzultace k vlastním příspěvkům studentů.

Závěrečné hodnocení studentů se kromě ověření znalosti probrané látky opírá zejména o vlastní příspěvek studenta: jeho odborný popis a prezentaci.

 
Univerzita Karlova | Informační systém UK