Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Thesis title in Czech: | Extrakce vícejazyčných valenčních rámců ze závislostních korpusů |
---|---|
Thesis title in English: | Extraction of multilingual valency frames from dependency treebanks |
Key words: | závislostní syntax, valence, universal dependencies |
English key words: | dependency syntax, valency, universal dependencies |
Academic year of topic announcement: | 2018/2019 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | RNDr. Daniel Zeman, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 08.01.2019 |
Date of assignment: | 16.01.2019 |
Confirmed by Study dept. on: | 27.03.2019 |
Date and time of defence: | 06.02.2024 09:00 |
Date of electronic submission: | 11.01.2024 |
Date of submission of printed version: | 11.01.2024 |
Date of proceeded defence: | 06.02.2024 |
Opponents: | doc. RNDr. Markéta Lopatková, Ph.D. |
Guidelines |
Prozkoumejte možnosti extrakce slovesných vazeb (povrchových valenčních rámců) ze závislostních korpusů (treebanků) ve více jazycích, na materiálu Universal Dependencies (http://universaldependencies.org/, UD). S pomocí paralelních dat najděte zobrazení mezi významově či tvarově podobnými slovesy v různých jazycích. Obdobně najděte zobrazení mezi jejich jednotlivými argumenty (vazbami).
Rozlišujte postupy a zdroje, které jsou specifické pro konkrétní jazyky nebo treebanky, od obecných postupů aplikovatelných na libovolný treebank v UD. Pokud použijete postupy nebo zdroje specifické pro konkrétní treebank nebo skupinu treebanků, vyhodnoťte jejich přínos tím, že srovnáte výstup dosažený s nimi a bez nich. Kvalitu nalezených slovesných vazeb, jakož i provázání sloves a jejich rámců napříč jazyky, vyhodnoťte ručně na vybraném vzorku dat z několika jazyků. Takto vybudovaný slovník by našel praktické využití v aplikacích, které potřebují namapovat argumenty sloves na sémantické role, a to i u jazyků, pro které skutečný valenční slovník není a v dohledné době nebude k dispozici. Slovník by byl také užitečným materiálem pro lingvisty, kteří by mohli sledovat vývoj jazyka na příbuzných jazycích. Studentům cizích jazyků by zase pomohl ve sledování rozdílů v povrchové realizaci slovesných vazeb. |
References |
Sarkar Anoop, Zeman Daniel: Automatic Extraction of Subcategorization Frames for Czech. In: Proceedings of the 18th International Conference on Computational Linguistics (COLING), Copyright © Universität des Saarlandes, Saarbrücken, Germany, ISBN 1-55860-717-X, pp. 691-697, 2000
Nivre Joakim, de Marneffe Marie-Catherine, Ginter Filip, Goldberg Yoav, Hajič Jan, Manning Christopher, McDonald Ryan, Petrov Slav, Pyysalo Sampo, Silveira Natalia, Tsarfaty Reut, Zeman Daniel: Universal Dependencies v1: A Multilingual Treebank Collection. In: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), Copyright © European Language Resources Association, Paris, France, ISBN 978-2-9517408-9-1, pp. 1659-1666, 2016 Multilingual Aliasing for Auto-Generating Proposition Banks. Alan Akbik, Xinyu Guan and Yunyao Li. 26th International Conference on Computational Linguistics, COLING 2016. Towards Semi-Automatic Generation of Proposition Banks for Low-Resource Languages. Alan Akbik, Vishwajeet Kumar and Yunyao Li. 2016 Conference on Empirical Methods on Natural Language Processing, EMNLP 2016. Urešová Zdeňka, Fučíková Eva, Hajičová Eva, Hajič Jan: Defining Verbal Synonyms: between Syntax and Semantics. In: Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018), Copyright © Linköping University Electronic Press, Linköping, Sweden, ISBN 978-91-7685-137-1, ISSN 1650-3740, pp. 75-90, 2018 |