Seminář slouží jako doplňkové cvičení k Unixu nebo též veskrze praktické seznámení s některými aspekty
počítačové lingvistiky. Budeme společně vylepšovat existující nástroje a systémy pro statistický strojový překlad
včetně překladu neuronového, a účastnit se s ním soutěží jako http://www.statmt.org/wmt18/. Zaměříme se
většinou na češtinu a angličtinu, ale uvážíme i další jazyky podle zájmu účastníků.
Prakticky vzato sestává seminář ze skriptování a ovládání různorodé sbírky výzkumných nástrojů a překonávání
řady technických překážek v unixovém prostředí výpočetního klastru, včetně zpracová
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)
The seminar can serve as a supplement of Unix classes or a very practical introduction to some aspects of
computational linguistics. We will collectively improve existing tools and systems for statistical machine translation,
including neural machine translation, and take part in competitions like http://www.statmt.org/wmt18/. Our primary
focus will be on Czech and English but other languages will be considered based on the interest of participants.
Practically speaking, the seminar consists of scripting and operating a diverse collection of research tools and
tackling a wide range of techn
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)
Podmínky zakončení předmětu -
Seminář NPFL101 je možné zapisovat opakovaně, tj. ve více různých letech.
Každý rok je klíčovým požadavkem, za nějž se uděluje zápočet, zaslání zprávy popisující projekt realizovaný pro seminář. Podle charakteru vašeho konkrétního projektu se můžeme rovněž dohodnout na prezentaci na semináři, obsah prezentace je pak žádoucí využít ve zprávě.
Zpráva by měla být dlouhá 2 až 4 stranz a zahrnovat patřičný úvod (popis problematiky, k jejímuž řešení váš projekt přispívá), technické podrobnosti a rovněž i standardní závěr. Na projektu můžete pracovat samostatně nebo v malé skupince, podle dohody na seminářu.
Pokud výsledkem projektu bude článek odeslaný na workshop nebo konferenci, samostatnou zprávu není nutné psát.
Samotné odesílání zprávy je postupný proces: odešlete mi pracovní verzi, na základě níž typicky požádám o menší či větší revize. Proces opakujeme, dokud zpráva není dostatečně dobrá a ucelená. V tomto smyslu je tedy zpráva "odevzdávána" několikrát.
Poslední úprava: Bojar Ondřej, doc. RNDr., Ph.D. (17.06.2019)
You can enroll into the NPFL101 seminar repeatedly, i.e. in more than one year.
Every year, the key requirement, for which you will receive the credit, is to submit a report describing your project for the seminar. Depending on your particular project, we may also agree on a presentation at the seminar, which then contributes the content to your report.
The report shall be at least 2-4 pages long and include proper introduction (the "big picture" of what your work is contributing to), technical details, as well as a standard conclusion. You can work on your project alone or in a small group, as agreed at the seminar.
If the resulting project leads to a workshop or a conference paper, there is no need to write a separate report.
The submission of the report is an iterative process, you send me a draft, and I will typically ask you for minor or greater revisions. We iterate, until the report is well written and rounded and I accept it. In this sense, the report can be "submitted" many times.
Poslední úprava: Bojar Ondřej, doc. RNDr., Ph.D. (10.10.2017)
Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.
also including the chapter on neural MT: https://arxiv.org/abs/1709.07809
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)
Sylabus -
Na semináři budeme vylepšovat systémy strojového překladu (zejm. překlad do češtiny) a účastnit se s nimi každoroční soutěže v překládání, http://www.statmt.org/wmt18/. S naším systémem se dlouhodobě umisťujeme na relativně dobrých pozicích, v letech 2013-2015 jsme vítězili mj. i nad Google Translate.
Statistický strojový překlad je úloha náročná zejména z hlediska objemu zpracovávaných dat. Zcela běžně se proto pracuje paralelně na desítkách počítačů a není problém na jeden experiment účelně využít 100 GB disku a 100 GB RAM, neuronový strojový překlad pak přidává výpočetní náročnost: vyžaduje GPU s minimálně 8 GB RAM a trénuje se klidně dny nebo týdny.
V maximální míře se opřeme o existující nástroje, které jsou implementovány ve směsici jazyků jako Python, C/C++, Perl, Bash, ad. Velmi často pak budeme výpočty paralelizovat na výpočetním clusteru katedry nebo MetaCentra, včetně výkonných grafických karet (GPU).
Během semestru budeme kolektivně vylepšovat volně šiřitelné implementace systémů strojového překladu. Zájemci o počítačové zpracování přirozeného jazyka nebo o hluboké učení se zaměří na analýzu nebo návrh triků a úprav modelů pro lepší kvalitu překladu, zájemci o softwarové inženýrství obecně se mohou soustředit na infrastrukturu experimentačního prostředí nebo optimalizaci existujících nástrojů.
Seminář předpokládá pouze středoškolské znalosti formálního popisu přirozených jazyků.
Seminář bude probíhat v unixové laboratoři.
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)
At the seminar, we will improve machine translation systems (especially translation into Czech) and take part in the annual translation competitions like http://www.statmt.org/wmt18/. Our machines systems have repeatedly achieved relatively good results, and we won in the three consecutive years of 2013-2015, beating Google Translate among others.
Statistical machine translation is a challenging task especially in terms of the volume of data processed. It is quite common to work in parallel on dozens of computers, and can easily need 100 GB of disk and 100 GB of RAM for a single experiment. Neural machine translation then requires GPUs with at least 8 GB of RAM and training for days or weeks.
We will rely on existing tools that are implemented in a mixture of languages such as Python, C/C++, Perl, Bash, and others. Very often, we will parallelize the calculations on the computing cluster of the department or MetaCentrum, including powerful graphics cards (GPUs).
During the semester, we will collectively improve open-source machine translation systems. People interested in natural language processing or deep learning will focus on analyzing or designing tricks and modifying models for better translation quality; general software engineers can focus on the infrastructure of the experimentation environment or the optimization of existing tools.
The seminar assumes only high school knowledge of the formal description of natural languages.
The seminar will take place at the Unix laboratory.
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2018)