PředmětyPředměty(verze: 964)
Předmět, akademický rok 2024/2025
   Přihlásit přes CAS
Mnohojazyčné počítačové zpracování jazyka - NPFL120
Anglický název: Multilingual Natural Language Processing
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2019
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:1/1, KZ [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: angličtina, čeština
Způsob výuky: prezenční
Další informace: http://ufal.mff.cuni.cz/courses/npfl120
Garant: RNDr. Daniel Zeman, Ph.D.
Mgr. Rudolf Rosa, Ph.D.
doc. RNDr. Ondřej Bojar, Ph.D.
Vyučující: doc. RNDr. Ondřej Bojar, Ph.D.
Mgr. Rudolf Rosa, Ph.D.
RNDr. Daniel Zeman, Ph.D.
Anotace -
Kurz se zaměřuje na multilingvální aspekty zpracování přirozeného jazyka. Vysvětluje problémy i výhody spojené s počítačovým zpracováním jazyka ve vícejazyčném prostředí a ukazuje možná řešení. Zaměříme se jak na zvládnutí variability jazyků při aplikaci monolingválních metod na širší spektrum jazyků, tak na skutečně mnohojazyčné a mezijazyčné přístupy kombinující zdroje z více jazyků najednou. Představíme si a budeme využívat řadu volně dostupných zdrojů anotovaných i neanotovaných mnohojazyčných dat. Výuka probíhá formou semináře v počítačové laboratoři.
Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (03.05.2019)
Podmínky zakončení předmětu -

K absolvování kurzu je vyžadována aktivní účast na cvičeních a odevzdání domácích úkolů, a to ve formě zdrojových kódů a textových reportů. Kvalita řešení domácích úkolů se promítne do výsledné známky.

Bodování úkolů:

  • každý úkol je hodnocen 0 až 5 body
  • 3 body odpovídají základnímu splnění zadání
  • 4 body odpovídají řešení, které je v nějakém smyslu kvalitnější než jen základní splnění zadání (např. je řešení obzvlášť chytré, jde nad rámec zadání, obsahuje hlubší analýzu, přináší zajímavé poznatky...); řešení, které je v tomto smyslu výjimečně kvalitní, může získat 5 bodů
  • 2 body odpovídají řešení, které má nějaké nedostatky (například řeší jen část zadání, řeší jiný úkol než co bylo zadáno, postup řešení není správný, interpretace výsledků není správná...); řešení, které má velmi závažné či extenzivní nedostatky, může získat 1 bod
  • 0 bodů odpovídá neřešenému domácímu úkolu

Závěrečná známka je dána průměrným hodnocením všech úkolů:

  • 1 pro průměr alespoň 3.0
  • 2 pro průměr alespoň 2.5
  • 3 pro průměr alespoň 2.0
  • 4 pro průměr nižší než 2.0
Poslední úprava: Rosa Rudolf, Mgr., Ph.D. (13.10.2023)
Literatura -
  • HASPELMATH, Martin. The world atlas of language structures. Oxford University Press, 2005.
  • PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: LREC. 2012. p. 2089-2096.
  • ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. p. 213-218.
  • ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741.
  • MCDONALD, Ryan; LERMAN, Kevin; PEREIRA, Fernando. Multilingual dependency analysis with a two-stage discriminative parser. In: CoNLL. 2006. p. 216-220.
  • NIVRE, Joakim, et al. Universal dependencies v1: A multilingual treebank collection. In: LREC. 2016. p. 1659-1666.
  • DAS, Dipanjan; PETROV, Slav. Unsupervised part-of-speech tagging with bilingual graph-based projections. In: ACL-HLT. 2011. p. 600-609.
  • ZEMAN, Daniel; RESNIK, Philip. Cross-Language Parser Adaptation between Related Languages. In: IJCNLP. 2008. p. 35-42.
  • TIEDEMANN, Jörg. Parallel Data, Tools and Interfaces in OPUS. In: LREC. 2012. p. 2214-2218.
  • AGIĆ, Željko; HOVY, Dirk; SØGAARD, Anders. If all you have is a bit of the Bible: Learning POS taggers for truly low-resource languages. In: ACL-IJCNLP. 2015. p. 268-272.
  • AGIĆ, Željko, et al. Multilingual projection for parsing truly low-resource languages. In: TACL. 2016. 301-312.
  • SØGAARD, Anders. Data point selection for cross-language adaptation of dependency parsers. In: ACL-HLT. 2011. p. 682-686.
  • TIEDEMANN, Jörg; AGIĆ, Željko; NIVRE, Joakim. Treebank translation for cross-lingual parser induction. In: CoNLL. 2014. p. 130-140.
  • FORCADA, Mikel L., et al. Apertium: a free/open-source platform for rule-based machine translation. In: Machine translation. 2011. p. 127-144.
  • JOHNSON, Melvin, et al. Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation. In: arXiv preprint arXiv:1611.04558. 2016.
  • ZEMAN, Daniel: The World of Tokens, Tags and Trees. Studies in Computational and Theoretical Linguistics, vol. 19. ÚFAL, Praha, 2018, ISBN 978-80-88132-09-7.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)
Sylabus -
  • Úvod do multilingvality (co to je, proč to způsobuje problémy, na co je to dobré, WALS)
  • Prostý text (abecedy, transliterace, tokenizace, identifikace jazyka, podobnost jazyků)
  • Strojový překlad pro vícejazyčné zpracování jazyka (Apertium, OPUS, Bible, Strážní věž, algoritmy slovního zarovnání, vícejazyčný strojový překlad)
  • Morfologie (morfologická variabilita jazyků, morfologická anotace, Universal POS tags, Universal features, konverze tagsetů, mezijazyčný tagging)
  • Syntaxe (syntaktická variabilita jazyků, harmonizace anotací treebanků, Universal Dependencies; mnohojazyčný parsing, mezijazyčný parsing)
  • Word embeddings, vícejazyčné embeddings, kontextové vektorové reprezentace.

Poslední úprava: Zeman Daniel, RNDr., Ph.D. (05.05.2022)
 
Univerzita Karlova | Informační systém UK