Extrakce vícejazyčných valenčních rámců ze závislostních korpusů
Název práce v češtině: | Extrakce vícejazyčných valenčních rámců ze závislostních korpusů |
---|---|
Název v anglickém jazyce: | Extraction of multilingual valency frames from dependency treebanks |
Klíčová slova: | závislostní syntax, valence, universal dependencies |
Klíčová slova anglicky: | dependency syntax, valency, universal dependencies |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | diplomová práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Daniel Zeman, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 08.01.2019 |
Datum zadání: | 16.01.2019 |
Datum potvrzení stud. oddělením: | 27.03.2019 |
Datum a čas obhajoby: | 06.02.2024 09:00 |
Datum odevzdání elektronické podoby: | 11.01.2024 |
Datum odevzdání tištěné podoby: | 11.01.2024 |
Datum proběhlé obhajoby: | 06.02.2024 |
Oponenti: | doc. RNDr. Markéta Lopatková, Ph.D. |
Zásady pro vypracování |
Prozkoumejte možnosti extrakce slovesných vazeb (povrchových valenčních rámců) ze závislostních korpusů (treebanků) ve více jazycích, na materiálu Universal Dependencies (http://universaldependencies.org/, UD). S pomocí paralelních dat najděte zobrazení mezi významově či tvarově podobnými slovesy v různých jazycích. Obdobně najděte zobrazení mezi jejich jednotlivými argumenty (vazbami).
Rozlišujte postupy a zdroje, které jsou specifické pro konkrétní jazyky nebo treebanky, od obecných postupů aplikovatelných na libovolný treebank v UD. Pokud použijete postupy nebo zdroje specifické pro konkrétní treebank nebo skupinu treebanků, vyhodnoťte jejich přínos tím, že srovnáte výstup dosažený s nimi a bez nich. Kvalitu nalezených slovesných vazeb, jakož i provázání sloves a jejich rámců napříč jazyky, vyhodnoťte ručně na vybraném vzorku dat z několika jazyků. Takto vybudovaný slovník by našel praktické využití v aplikacích, které potřebují namapovat argumenty sloves na sémantické role, a to i u jazyků, pro které skutečný valenční slovník není a v dohledné době nebude k dispozici. Slovník by byl také užitečným materiálem pro lingvisty, kteří by mohli sledovat vývoj jazyka na příbuzných jazycích. Studentům cizích jazyků by zase pomohl ve sledování rozdílů v povrchové realizaci slovesných vazeb. |
Seznam odborné literatury |
Sarkar Anoop, Zeman Daniel: Automatic Extraction of Subcategorization Frames for Czech. In: Proceedings of the 18th International Conference on Computational Linguistics (COLING), Copyright © Universität des Saarlandes, Saarbrücken, Germany, ISBN 1-55860-717-X, pp. 691-697, 2000
Nivre Joakim, de Marneffe Marie-Catherine, Ginter Filip, Goldberg Yoav, Hajič Jan, Manning Christopher, McDonald Ryan, Petrov Slav, Pyysalo Sampo, Silveira Natalia, Tsarfaty Reut, Zeman Daniel: Universal Dependencies v1: A Multilingual Treebank Collection. In: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), Copyright © European Language Resources Association, Paris, France, ISBN 978-2-9517408-9-1, pp. 1659-1666, 2016 Multilingual Aliasing for Auto-Generating Proposition Banks. Alan Akbik, Xinyu Guan and Yunyao Li. 26th International Conference on Computational Linguistics, COLING 2016. Towards Semi-Automatic Generation of Proposition Banks for Low-Resource Languages. Alan Akbik, Vishwajeet Kumar and Yunyao Li. 2016 Conference on Empirical Methods on Natural Language Processing, EMNLP 2016. Urešová Zdeňka, Fučíková Eva, Hajičová Eva, Hajič Jan: Defining Verbal Synonyms: between Syntax and Semantics. In: Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018), Copyright © Linköping University Electronic Press, Linköping, Sweden, ISBN 978-91-7685-137-1, ISSN 1650-3740, pp. 75-90, 2018 |