PředmětyPředměty(verze: 875)
Předmět, akademický rok 2020/2021
  
Mnohojazyčné počítačové zpracování jazyka - NPFL120
Anglický název: Multilingual Natural Language Processing
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2019
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:1/1 KZ [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: angličtina, čeština
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl120
Garant: RNDr. Daniel Zeman, Ph.D.
Mgr. Rudolf Rosa, Ph.D.
doc. RNDr. Ondřej Bojar, Ph.D.
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (03.05.2019)
Kurz se zaměřuje na multilingvální aspekty zpracování přirozeného jazyka. Vysvětluje problémy i výhody spojené s počítačovým zpracováním jazyka ve vícejazyčném prostředí a ukazuje možná řešení. Zaměříme se jak na zvládnutí variability jazyků při aplikaci monolingválních metod na širší spektrum jazyků, tak na skutečně mnohojazyčné a mezijazyčné přístupy kombinující zdroje z více jazyků najednou. Představíme si a budeme využívat řadu volně dostupných zdrojů anotovaných i neanotovaných mnohojazyčných dat. Výuka probíhá formou semináře v počítačové laboratoři.
Podmínky zakončení předmětu -
Poslední úprava: RNDr. Daniel Zeman, Ph.D. (22.11.2019)

K absolvování kurzu je vyžadována aktivní účast na cvičeních a odevzdání všech domácích úkolů. Kvalita řešení domácích úkolů se promítne do výsledné známky.

Literatura -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)
  • HASPELMATH, Martin. The world atlas of language structures. Oxford University Press, 2005.
  • PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: LREC. 2012. p. 2089-2096.
  • ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. p. 213-218.
  • ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741.
  • MCDONALD, Ryan; LERMAN, Kevin; PEREIRA, Fernando. Multilingual dependency analysis with a two-stage discriminative parser. In: CoNLL. 2006. p. 216-220.
  • NIVRE, Joakim, et al. Universal dependencies v1: A multilingual treebank collection. In: LREC. 2016. p. 1659-1666.
  • DAS, Dipanjan; PETROV, Slav. Unsupervised part-of-speech tagging with bilingual graph-based projections. In: ACL-HLT. 2011. p. 600-609.
  • ZEMAN, Daniel; RESNIK, Philip. Cross-Language Parser Adaptation between Related Languages. In: IJCNLP. 2008. p. 35-42.
  • TIEDEMANN, Jörg. Parallel Data, Tools and Interfaces in OPUS. In: LREC. 2012. p. 2214-2218.
  • AGIĆ, Željko; HOVY, Dirk; SØGAARD, Anders. If all you have is a bit of the Bible: Learning POS taggers for truly low-resource languages. In: ACL-IJCNLP. 2015. p. 268-272.
  • AGIĆ, Željko, et al. Multilingual projection for parsing truly low-resource languages. In: TACL. 2016. 301-312.
  • SØGAARD, Anders. Data point selection for cross-language adaptation of dependency parsers. In: ACL-HLT. 2011. p. 682-686.
  • TIEDEMANN, Jörg; AGIĆ, Željko; NIVRE, Joakim. Treebank translation for cross-lingual parser induction. In: CoNLL. 2014. p. 130-140.
  • FORCADA, Mikel L., et al. Apertium: a free/open-source platform for rule-based machine translation. In: Machine translation. 2011. p. 127-144.
  • JOHNSON, Melvin, et al. Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation. In: arXiv preprint arXiv:1611.04558. 2016.
  • ZEMAN, Daniel: The World of Tokens, Tags and Trees. Studies in Computational and Theoretical Linguistics, vol. 19. ÚFAL, Praha, 2018, ISBN 978-80-88132-09-7.

Sylabus -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)
  • Úvod do multilingvality (co to je, proč to způsobuje problémy, na co je to dobré, WALS)
  • Prostý text (abecedy, transliterace, tokenizace, identifikace jazyka, podobnost jazyků)
  • Strojový překlad pro vícejazyčné zpracování jazyka (Apertium, OPUS, Bible, Strážní věž, algoritmy slovního zarovnání, vícejazyčný strojový překlad)
  • Morfologie (morfologická variabilita jazyků, morfologická anotace, Universal POS tags, Universal features, konverze tagsetů, mezijazyčný tagging)
  • Syntaxe (syntaktická variabilita jazyků, harmonizace anotací treebanků, Universal Dependencies; mnohojazyčný parsing, mezijazyčný parsing)

 
Univerzita Karlova | Informační systém UK