Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Thesis title in Czech: Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Thesis title in English: Extraction of multilingual valency frames from dependency treebanks
Key words: závislostní syntax, valence, universal dependencies
English key words: dependency syntax, valency, universal dependencies
Academic year of topic announcement: 2018/2019
Thesis type: diploma thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Daniel Zeman, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 08.01.2019
Date of assignment: 16.01.2019
Confirmed by Study dept. on: 27.03.2019
Date and time of defence: 06.02.2024 09:00
Date of electronic submission:11.01.2024
Date of submission of printed version:11.01.2024
Date of proceeded defence: 06.02.2024
Opponents: doc. RNDr. Markéta Lopatková, Ph.D.
 
 
 
Guidelines
Prozkoumejte možnosti extrakce slovesných vazeb (povrchových valenčních rámců) ze závislostních korpusů (treebanků) ve více jazycích, na materiálu Universal Dependencies (http://universaldependencies.org/, UD). S pomocí paralelních dat najděte zobrazení mezi významově či tvarově podobnými slovesy v různých jazycích. Obdobně najděte zobrazení mezi jejich jednotlivými argumenty (vazbami).

Rozlišujte postupy a zdroje, které jsou specifické pro konkrétní jazyky nebo treebanky, od obecných postupů aplikovatelných na libovolný treebank v UD. Pokud použijete postupy nebo zdroje specifické pro konkrétní treebank nebo skupinu treebanků, vyhodnoťte jejich přínos tím, že srovnáte výstup dosažený s nimi a bez nich. Kvalitu nalezených slovesných vazeb, jakož i provázání sloves a jejich rámců napříč jazyky, vyhodnoťte ručně na vybraném vzorku dat z několika jazyků.

Takto vybudovaný slovník by našel praktické využití v aplikacích, které potřebují namapovat argumenty sloves na sémantické role, a to i u jazyků, pro které skutečný valenční slovník není a v dohledné době nebude k dispozici. Slovník by byl také užitečným materiálem pro lingvisty, kteří by mohli sledovat vývoj jazyka na příbuzných jazycích. Studentům cizích jazyků by zase pomohl ve sledování rozdílů v povrchové realizaci slovesných vazeb.
References
Sarkar Anoop, Zeman Daniel: Automatic Extraction of Subcategorization Frames for Czech. In: Proceedings of the 18th International Conference on Computational Linguistics (COLING), Copyright © Universität des Saarlandes, Saarbrücken, Germany, ISBN 1-55860-717-X, pp. 691-697, 2000

Nivre Joakim, de Marneffe Marie-Catherine, Ginter Filip, Goldberg Yoav, Hajič Jan, Manning Christopher, McDonald Ryan, Petrov Slav, Pyysalo Sampo, Silveira Natalia, Tsarfaty Reut, Zeman Daniel: Universal Dependencies v1: A Multilingual Treebank Collection. In: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), Copyright © European Language Resources Association, Paris, France, ISBN 978-2-9517408-9-1, pp. 1659-1666, 2016

Multilingual Aliasing for Auto-Generating Proposition Banks. Alan Akbik, Xinyu Guan and Yunyao Li. 26th International Conference on Computational Linguistics, COLING 2016.

Towards Semi-Automatic Generation of Proposition Banks for Low-Resource Languages. Alan Akbik, Vishwajeet Kumar and Yunyao Li. 2016 Conference on Empirical Methods on Natural Language Processing, EMNLP 2016.

Urešová Zdeňka, Fučíková Eva, Hajičová Eva, Hajič Jan: Defining Verbal Synonyms: between Syntax and Semantics. In: Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018), Copyright © Linköping University Electronic Press, Linköping, Sweden, ISBN 978-91-7685-137-1, ISSN 1650-3740, pp. 75-90, 2018
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html