PředmětyPředměty(verze: 835)
Předmět, akademický rok 2018/2019
   Přihlásit přes CAS
Soutěžní strojový překlad - NPFL101
Anglický název: Competing in Machine Translation
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2018
Semestr: zimní
E-Kredity: 3
Rozsah, examinace: zimní s.:0/2 Z [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Poznámka: předmět lze zapsat opakovaně
předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: RNDr. Ondřej Bojar, Ph.D.
Prerekvizity : NSWI095
Anotace -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2018)

Seminář slouží jako doplňkové cvičení k Unixu nebo též veskrze praktické seznámení s některými aspekty počítačové lingvistiky. Budeme společně vylepšovat existující nástroje a systémy pro statistický strojový překlad včetně překladu neuronového, a účastnit se s ním soutěží jako http://www.statmt.org/wmt18/. Zaměříme se většinou na češtinu a angličtinu, ale uvážíme i další jazyky podle zájmu účastníků. Prakticky vzato sestává seminář ze skriptování a ovládání různorodé sbírky výzkumných nástrojů a překonávání řady technických překážek v unixovém prostředí výpočetního klastru, včetně zpracová
Podmínky zakončení předmětu - angličtina
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2018)

You can enroll into the NPFL101 seminar repeatedly, i.e. in more than one year.

Every year, the key requirement, for which you will receive the credit, is to submit a report describing your project for the seminar. Depending on your particular project, we may also agree on a presentation at the seminar, which then contributes the content to your report.

The report shall be at least 2-4 pages long and include proper introduction (the "big picture" of what your work is contributing to), technical details, as well as a standard conclusion. You can work on your project alone or in a small group, as agreed at the seminar.

If the resulting project leads to a workshop or a conference paper, there is no need to write a separate report.

The submission of the report is an iterative process, you send me a draft, and I will typically ask you for minor or greater revisions. We iterate, until the report is well written and rounded and I accept it. In this sense, the report can be "submitted" many times.

Literatura -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2018)

Bojar Ondřej, Chatterjee Rajen, Federmann Christian, Graham Yvette, Haddow Barry, Huang Shujian, Huck Matthias, Koehn Philipp, Liu Qun, Logacheva Varvara, Monz Christof, Negri Matteo, Post Matt, Rubino Raphael, Specia Lucia, Turchi Marco: Findings of the 2017 Conference on Machine Translation (WMT17). In: Proceedings of the Second Conference on Machine Translation, Volume 2: Shared Task Papers, Copyright © Association for Computational Linguistics, Stroudsburg, PA, USA, ISBN 978-1-945626-96-8, pp. 169-214, 2017.

http://www.statmt.org/wmt18/

Bojar Ondřej: Čeština a strojový překlad. Copyright © ÚFAL, Praha, Czechia, ISBN 978-80-904571-4-0, 168 pp., 2012.

Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.

včetně kapitoly o neuronovém překladu: https://arxiv.org/abs/1709.07809

Sylabus -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2018)

Na semináři budeme vylepšovat systémy strojového překladu (zejm. překlad do češtiny) a účastnit se s nimi každoroční soutěže v překládání, http://www.statmt.org/wmt18/. S naším systémem se dlouhodobě umisťujeme na relativně dobrých pozicích, v letech 2013-2015 jsme vítězili mj. i nad Google Translate.

Statistický strojový překlad je úloha náročná zejména z hlediska objemu zpracovávaných dat. Zcela běžně se proto pracuje paralelně na desítkách počítačů a není problém na jeden experiment účelně využít 100 GB disku a 100 GB RAM, neuronový strojový překlad pak přidává výpočetní náročnost: vyžaduje GPU s minimálně 8 GB RAM a trénuje se klidně dny nebo týdny.

V maximální míře se opřeme o existující nástroje, které jsou implementovány ve směsici jazyků jako Python, C/C++, Perl, Bash, ad. Velmi často pak budeme výpočty paralelizovat na výpočetním clusteru katedry nebo MetaCentra, včetně výkonných grafických karet (GPU).

Během semestru budeme kolektivně vylepšovat volně šiřitelné implementace systémů strojového překladu. Zájemci o počítačové zpracování přirozeného jazyka nebo o hluboké učení se zaměří na analýzu nebo návrh triků a úprav modelů pro lepší kvalitu překladu, zájemci o softwarové inženýrství obecně se mohou soustředit na infrastrukturu experimentačního prostředí nebo optimalizaci existujících nástrojů.

Seminář předpokládá pouze středoškolské znalosti formálního popisu přirozených jazyků.

Seminář bude probíhat v unixové laboratoři.

 
Univerzita Karlova | Informační systém UK