PředmětyPředměty(verze: 845)
Předmět, akademický rok 2018/2019
   Přihlásit přes CAS
Soutěžní strojový překlad - NPFL101
Anglický název: Competing in Machine Translation
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2018
Semestr: zimní
E-Kredity: 3
Rozsah, examinace: zimní s.:0/2 Z [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Poznámka: předmět lze zapsat opakovaně
předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: doc. RNDr. Ondřej Bojar, Ph.D.
Prerekvizity : NSWI095
Anotace -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2018)
Seminář slouží jako doplňkové cvičení k Unixu nebo též veskrze praktické seznámení s některými aspekty počítačové lingvistiky. Budeme společně vylepšovat existující nástroje a systémy pro statistický strojový překlad včetně překladu neuronového, a účastnit se s ním soutěží jako http://www.statmt.org/wmt18/. Zaměříme se většinou na češtinu a angličtinu, ale uvážíme i další jazyky podle zájmu účastníků. Prakticky vzato sestává seminář ze skriptování a ovládání různorodé sbírky výzkumných nástrojů a překonávání řady technických překážek v unixovém prostředí výpočetního klastru, včetně zpracová
Podmínky zakončení předmětu -
Poslední úprava: doc. RNDr. Ondřej Bojar, Ph.D. (17.06.2019)

Seminář NPFL101 je možné zapisovat opakovaně, tj. ve více různých letech.

Každý rok je klíčovým požadavkem, za nějž se uděluje zápočet, zaslání zprávy popisující projekt realizovaný pro seminář. Podle charakteru vašeho konkrétního projektu se můžeme rovněž dohodnout na prezentaci na semináři, obsah prezentace je pak žádoucí využít ve zprávě.

Zpráva by měla být dlouhá 2 až 4 stranz a zahrnovat patřičný úvod (popis problematiky, k jejímuž řešení váš projekt přispívá), technické podrobnosti a rovněž i standardní závěr. Na projektu můžete pracovat samostatně nebo v malé skupince, podle dohody na seminářu.

Pokud výsledkem projektu bude článek odeslaný na workshop nebo konferenci, samostatnou zprávu není nutné psát.

Samotné odesílání zprávy je postupný proces: odešlete mi pracovní verzi, na základě níž typicky požádám o menší či větší revize. Proces opakujeme, dokud zpráva není dostatečně dobrá a ucelená. V tomto smyslu je tedy zpráva "odevzdávána" několikrát.

Literatura -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2018)

Bojar Ondřej, Chatterjee Rajen, Federmann Christian, Graham Yvette, Haddow Barry, Huang Shujian, Huck Matthias, Koehn Philipp, Liu Qun, Logacheva Varvara, Monz Christof, Negri Matteo, Post Matt, Rubino Raphael, Specia Lucia, Turchi Marco: Findings of the 2017 Conference on Machine Translation (WMT17). In: Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-945626-96-8, pp. 169-214, 2017.

http://www.statmt.org/wmt18/

Bojar Ondřej: Čeština a strojový překlad. Copyright © ÚFAL, Praha, Czechia, ISBN 978-80-904571-4-0, 168 pp., 2012.

Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.

včetně kapitoly o neuronovém překladu: https://arxiv.org/abs/1709.07809

Sylabus -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2018)

Na semináři budeme vylepšovat systémy strojového překladu (zejm. překlad do češtiny) a účastnit se s nimi každoroční soutěže v překládání, http://www.statmt.org/wmt18/. S naším systémem se dlouhodobě umisťujeme na relativně dobrých pozicích, v letech 2013-2015 jsme vítězili mj. i nad Google Translate.

Statistický strojový překlad je úloha náročná zejména z hlediska objemu zpracovávaných dat. Zcela běžně se proto pracuje paralelně na desítkách počítačů a není problém na jeden experiment účelně využít 100 GB disku a 100 GB RAM, neuronový strojový překlad pak přidává výpočetní náročnost: vyžaduje GPU s minimálně 8 GB RAM a trénuje se klidně dny nebo týdny.

V maximální míře se opřeme o existující nástroje, které jsou implementovány ve směsici jazyků jako Python, C/C++, Perl, Bash, ad. Velmi často pak budeme výpočty paralelizovat na výpočetním clusteru katedry nebo MetaCentra, včetně výkonných grafických karet (GPU).

Během semestru budeme kolektivně vylepšovat volně šiřitelné implementace systémů strojového překladu. Zájemci o počítačové zpracování přirozeného jazyka nebo o hluboké učení se zaměří na analýzu nebo návrh triků a úprav modelů pro lepší kvalitu překladu, zájemci o softwarové inženýrství obecně se mohou soustředit na infrastrukturu experimentačního prostředí nebo optimalizaci existujících nástrojů.

Seminář předpokládá pouze středoškolské znalosti formálního popisu přirozených jazyků.

Seminář bude probíhat v unixové laboratoři.

 
Univerzita Karlova | Informační systém UK