Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Název práce v češtině: Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Název v anglickém jazyce: Extraction of multilingual valency frames from dependency treebanks
Klíčová slova: závislostní syntax, valence, universal dependencies
Klíčová slova anglicky: dependency syntax, valency, universal dependencies
Akademický rok vypsání: 2018/2019
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Daniel Zeman, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 08.01.2019
Datum zadání: 16.01.2019
Datum potvrzení stud. oddělením: 27.03.2019
Datum a čas obhajoby: 06.02.2024 09:00
Datum odevzdání elektronické podoby:11.01.2024
Datum odevzdání tištěné podoby:11.01.2024
Datum proběhlé obhajoby: 06.02.2024
Oponenti: doc. RNDr. Markéta Lopatková, Ph.D.
 
 
 
Zásady pro vypracování
Prozkoumejte možnosti extrakce slovesných vazeb (povrchových valenčních rámců) ze závislostních korpusů (treebanků) ve více jazycích, na materiálu Universal Dependencies (http://universaldependencies.org/, UD). S pomocí paralelních dat najděte zobrazení mezi významově či tvarově podobnými slovesy v různých jazycích. Obdobně najděte zobrazení mezi jejich jednotlivými argumenty (vazbami).

Rozlišujte postupy a zdroje, které jsou specifické pro konkrétní jazyky nebo treebanky, od obecných postupů aplikovatelných na libovolný treebank v UD. Pokud použijete postupy nebo zdroje specifické pro konkrétní treebank nebo skupinu treebanků, vyhodnoťte jejich přínos tím, že srovnáte výstup dosažený s nimi a bez nich. Kvalitu nalezených slovesných vazeb, jakož i provázání sloves a jejich rámců napříč jazyky, vyhodnoťte ručně na vybraném vzorku dat z několika jazyků.

Takto vybudovaný slovník by našel praktické využití v aplikacích, které potřebují namapovat argumenty sloves na sémantické role, a to i u jazyků, pro které skutečný valenční slovník není a v dohledné době nebude k dispozici. Slovník by byl také užitečným materiálem pro lingvisty, kteří by mohli sledovat vývoj jazyka na příbuzných jazycích. Studentům cizích jazyků by zase pomohl ve sledování rozdílů v povrchové realizaci slovesných vazeb.
Seznam odborné literatury
Sarkar Anoop, Zeman Daniel: Automatic Extraction of Subcategorization Frames for Czech. In: Proceedings of the 18th International Conference on Computational Linguistics (COLING), Copyright © Universität des Saarlandes, Saarbrücken, Germany, ISBN 1-55860-717-X, pp. 691-697, 2000

Nivre Joakim, de Marneffe Marie-Catherine, Ginter Filip, Goldberg Yoav, Hajič Jan, Manning Christopher, McDonald Ryan, Petrov Slav, Pyysalo Sampo, Silveira Natalia, Tsarfaty Reut, Zeman Daniel: Universal Dependencies v1: A Multilingual Treebank Collection. In: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), Copyright © European Language Resources Association, Paris, France, ISBN 978-2-9517408-9-1, pp. 1659-1666, 2016

Multilingual Aliasing for Auto-Generating Proposition Banks. Alan Akbik, Xinyu Guan and Yunyao Li. 26th International Conference on Computational Linguistics, COLING 2016.

Towards Semi-Automatic Generation of Proposition Banks for Low-Resource Languages. Alan Akbik, Vishwajeet Kumar and Yunyao Li. 2016 Conference on Empirical Methods on Natural Language Processing, EMNLP 2016.

Urešová Zdeňka, Fučíková Eva, Hajičová Eva, Hajič Jan: Defining Verbal Synonyms: between Syntax and Semantics. In: Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018), Copyright © Linköping University Electronic Press, Linköping, Sweden, ISBN 978-91-7685-137-1, ISSN 1650-3740, pp. 75-90, 2018
 
Univerzita Karlova | Informační systém UK