Soutěžní strojový překlad - NPFL101
Anglický název: Competing in Machine Translation
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2015
Semestr: zimní
E-Kredity: 3
Rozsah, examinace: zimní s.:0/2 Z [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Poznámka: předmět lze zapsat opakovaně
předmět je možno zapsat mimo plán
povolen pro zápis po webu
Garant: RNDr. Ondřej Bojar, Ph.D.
Prerekvizity : NSWI095
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: T_UFAL (09.05.2012)

Seminář slouží jako doplňkové cvičení k Unixu nebo též veskrze praktické seznámení s některými aspekty počítačové lingvistiky. Budeme společně vylepšovat statistický strojový překlad zejm. do češtiny a účastnit se s ním soutěží jako http://www.statmt.org/wmt12/. Při práci v unixovém prostředí a skriptování existujícího kolosu nástrojů budeme řešit širokou škálu technických překážek včetně nutnosti paralelizovat výpočty nad velkými daty.
Podmínky zakončení předmětu - angličtina
Poslední úprava: RNDr. Ondřej Bojar, Ph.D. (10.10.2017)

You can enroll into the NPFL101 seminar repeatedly, i.e. in more than one year.

Every year, the key requirement, for which you will receive the credit, is to submit a report describing your project for the seminar. Depending on your particular project, we may also agree on a presentation at the seminar, which then contributes the content to your report.

The report shall be at least 2-4 pages long and include proper introduction (the "big picture" of what your work is contributing to), technical details, as well as a standard conclusion. You can work on your project alone or in a small group, as agreed at the seminar.

If the resulting project leads to a workshop or a conference paper, there is no need to write a separate report.

The submission of the report is an iterative process, you send me a draft, and I will typically ask you for minor or greater revisions. We iterate, until the report is well written and rounded and I accept it. In this sense, the report can be "submitted" many times.

Literatura -
Poslední úprava: T_UFAL (09.05.2012)

Chris Callison-Burch, Philipp Koehn, Christof Monz and Omar Zaidan: Findings of the 2011 Workshop on Statistical Machine Translation. EMNLP 2011 Workshop on Statistical Machine Translation. Edinburgh.

http://www.statmt.org/wmt11/

Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.

Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.

http://www.statmt.org/moses/

Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst: Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006.

http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf

Sylabus -
Poslední úprava: T_UFAL (09.05.2012)

Na semináři budeme vylepšovat systémy strojového překladu (zejm. překlad do češtiny) a účastnit se s nimi každoroční soutěže v překládání, http://www.statmt.org/wmt12/. S naším systémem se pravidelně řadíme na přední příčky této soutěže, za Google Translate, ale bezpečně před české komerční systémy.

Statistický strojový překlad je úloha náročná zejména z hlediska objemu zpracovávaných dat. Zcela běžně se proto pracuje paralelně na desítkách počítačů a není problém na jeden experiment účelně využít 100 GB disku a 100 GB RAM. S malým modelem však může stejný software překládat i na OLPC (One Laptop per Child).

V maximální míře se opřeme o existující nástroje, které jsou implementovány ve směsici jazyků jako Perl, C/C++, Bash, Python, Java. Právě proto bych rád na semináři uvítal i ryzí softwarové inženýry, i zcela bez znalosti či zájmu o počítačovou lingvistiku.

Během semestru budeme kolektivně vylepšovat volně šiřitelnou implementaci trénování i samotného překladu. Kromě hračkových modelů, které je možné připravovat i spouštět na jednotlivých počítačích v labu se pokusíme v labu vytvořit provizorní cluster a počítat paralelně. Určité úsilí budeme muset věnovat i diskovému prostoru, abychom jej dokázali efektivně (a paralelně) využívat, aniž bychom příliš zatížili síť. Zájemci o počítačové zpracování přirozeného jazyka se zaměří na návrh triků a úprav modelů pro lepší kvalitu překladu, ostatní pomohou s infrastrukturou a případně i s optimalizací existujících nástrojů.

Seminář předpokládá pouze středoškolské znalosti formálního popisu přirozených jazyků.

Seminář bude probíhat v unixové laboratoři.