Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Mnohojazyčné počítačové zpracování jazyka - NPFL120

Anglický název:	Multilingual Natural Language Processing
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2019
Semestr:	letní
E-Kredity:	3
Rozsah, examinace:	letní s.:1/1, KZ [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	vyučován
Jazyk výuky:	angličtina, čeština
Způsob výuky:	prezenční
Další informace:	http://ufal.mff.cuni.cz/courses/npfl120

Garant:	doc. RNDr. Daniel Zeman, Ph.D. Mgr. Rudolf Rosa, Ph.D. doc. RNDr. Ondřej Bojar, Ph.D.
Vyučující:	doc. RNDr. Ondřej Bojar, Ph.D. Mgr. Rudolf Rosa, Ph.D. doc. RNDr. Daniel Zeman, Ph.D.
Třída:	Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu:	Informatika > Počítačová a formální lingvistika

Výsledky anket Rozvrh LS Nástěnka

Anotace -

Kurz se zaměřuje na multilingvální aspekty zpracování přirozeného jazyka. Vysvětluje problémy i výhody spojené s počítačovým zpracováním jazyka ve vícejazyčném prostředí a ukazuje možná řešení. Zaměříme se jak na zvládnutí variability jazyků při aplikaci monolingválních metod na širší spektrum jazyků, tak na skutečně mnohojazyčné a mezijazyčné přístupy kombinující zdroje z více jazyků najednou. Představíme si a budeme využívat řadu volně dostupných zdrojů anotovaných i neanotovaných mnohojazyčných dat. Výuka probíhá formou semináře v počítačové laboratoři.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (03.05.2019)

Podmínky zakončení předmětu -

K absolvování kurzu je vyžadována aktivní účast na cvičeních a odevzdání domácích úkolů, a to ve formě zdrojových kódů a textových reportů. Kvalita řešení domácích úkolů se promítne do výsledné známky.

Bodování úkolů:

každý úkol je hodnocen 0 až 5 body

3 body odpovídají základnímu splnění zadání

4 body odpovídají řešení, které je v nějakém smyslu kvalitnější než jen základní splnění zadání (např. je řešení obzvlášť chytré, jde nad rámec zadání, obsahuje hlubší analýzu, přináší zajímavé poznatky...); řešení, které je v tomto smyslu výjimečně kvalitní, může získat 5 bodů

2 body odpovídají řešení, které má nějaké nedostatky (například řeší jen část zadání, řeší jiný úkol než co bylo zadáno, postup řešení není správný, interpretace výsledků není správná...); řešení, které má velmi závažné či extenzivní nedostatky, může získat 1 bod

0 bodů odpovídá neřešenému domácímu úkolu

Závěrečná známka je dána průměrným hodnocením všech úkolů:

1 pro průměr alespoň 3.0

2 pro průměr alespoň 2.5

3 pro průměr alespoň 2.0

4 pro průměr nižší než 2.0

Poslední úprava: Rosa Rudolf, Mgr., Ph.D. (13.10.2023)

Literatura -

HASPELMATH, Martin. The world atlas of language structures. Oxford University Press, 2005.

PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: LREC. 2012. p. 2089-2096.

ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. p. 213-218.

ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741.

MCDONALD, Ryan; LERMAN, Kevin; PEREIRA, Fernando. Multilingual dependency analysis with a two-stage discriminative parser. In: CoNLL. 2006. p. 216-220.

NIVRE, Joakim, et al. Universal dependencies v1: A multilingual treebank collection. In: LREC. 2016. p. 1659-1666.

DAS, Dipanjan; PETROV, Slav. Unsupervised part-of-speech tagging with bilingual graph-based projections. In: ACL-HLT. 2011. p. 600-609.

ZEMAN, Daniel; RESNIK, Philip. Cross-Language Parser Adaptation between Related Languages. In: IJCNLP. 2008. p. 35-42.

TIEDEMANN, Jörg. Parallel Data, Tools and Interfaces in OPUS. In: LREC. 2012. p. 2214-2218.

AGIĆ, Željko; HOVY, Dirk; SØGAARD, Anders. If all you have is a bit of the Bible: Learning POS taggers for truly low-resource languages. In: ACL-IJCNLP. 2015. p. 268-272.

AGIĆ, Željko, et al. Multilingual projection for parsing truly low-resource languages. In: TACL. 2016. 301-312.

SØGAARD, Anders. Data point selection for cross-language adaptation of dependency parsers. In: ACL-HLT. 2011. p. 682-686.

TIEDEMANN, Jörg; AGIĆ, Željko; NIVRE, Joakim. Treebank translation for cross-lingual parser induction. In: CoNLL. 2014. p. 130-140.

FORCADA, Mikel L., et al. Apertium: a free/open-source platform for rule-based machine translation. In: Machine translation. 2011. p. 127-144.

JOHNSON, Melvin, et al. Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation. In: arXiv preprint arXiv:1611.04558. 2016.

ZEMAN, Daniel: The World of Tokens, Tags and Trees. Studies in Computational and Theoretical Linguistics, vol. 19. ÚFAL, Praha, 2018, ISBN 978-80-88132-09-7.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)

HASPELMATH, Martin. The world atlas of language structures. Oxford University Press, 2005.

PETROV, Slav; DAS, Dipanjan; MCDONALD, Ryan. A universal part-of-speech tagset. In: LREC. 2012. p. 2089-2096.

ZEMAN, Daniel. Reusable Tagset Conversion Using Tagset Drivers. In: LREC. 2008. p. 213-218.

ZEMAN, Daniel, et al. HamleDT: To Parse or Not to Parse?. In: LREC. 2012. p. 2735-2741.

MCDONALD, Ryan; LERMAN, Kevin; PEREIRA, Fernando. Multilingual dependency analysis with a two-stage discriminative parser. In: CoNLL. 2006. p. 216-220.

NIVRE, Joakim, et al. Universal dependencies v1: A multilingual treebank collection. In: LREC. 2016. p. 1659-1666.

DAS, Dipanjan; PETROV, Slav. Unsupervised part-of-speech tagging with bilingual graph-based projections. In: ACL-HLT. 2011. p. 600-609.

ZEMAN, Daniel; RESNIK, Philip. Cross-Language Parser Adaptation between Related Languages. In: IJCNLP. 2008. p. 35-42.

TIEDEMANN, Jörg. Parallel Data, Tools and Interfaces in OPUS. In: LREC. 2012. p. 2214-2218.

AGIĆ, Željko; HOVY, Dirk; SØGAARD, Anders. If all you have is a bit of the Bible: Learning POS taggers for truly low-resource languages. In: ACL-IJCNLP. 2015. p. 268-272.

AGIĆ, Željko, et al. Multilingual projection for parsing truly low-resource languages. In: TACL. 2016. 301-312.

SØGAARD, Anders. Data point selection for cross-language adaptation of dependency parsers. In: ACL-HLT. 2011. p. 682-686.

TIEDEMANN, Jörg; AGIĆ, Željko; NIVRE, Joakim. Treebank translation for cross-lingual parser induction. In: CoNLL. 2014. p. 130-140.

FORCADA, Mikel L., et al. Apertium: a free/open-source platform for rule-based machine translation. In: Machine translation. 2011. p. 127-144.

JOHNSON, Melvin, et al. Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation. In: arXiv preprint arXiv:1611.04558. 2016.

ZEMAN, Daniel: The World of Tokens, Tags and Trees. Studies in Computational and Theoretical Linguistics, vol. 19. ÚFAL, Praha, 2018, ISBN 978-80-88132-09-7.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (29.01.2019)

Sylabus -

Úvod do multilingvality (co to je, proč to způsobuje problémy, na co je to dobré, WALS)

Prostý text (abecedy, transliterace, tokenizace, identifikace jazyka, podobnost jazyků)

Strojový překlad pro vícejazyčné zpracování jazyka (Apertium, OPUS, Bible, Strážní věž, algoritmy slovního zarovnání, vícejazyčný strojový překlad)

Morfologie (morfologická variabilita jazyků, morfologická anotace, Universal POS tags, Universal features, konverze tagsetů, mezijazyčný tagging)

Syntaxe (syntaktická variabilita jazyků, harmonizace anotací treebanků, Universal Dependencies; mnohojazyčný parsing, mezijazyčný parsing)

Word embeddings, vícejazyčné embeddings, kontextové vektorové reprezentace.

Poslední úprava: Zeman Daniel, doc. RNDr., Ph.D. (05.05.2022)