Rozpoznávání koreference pro Universal Dependencies
Thesis title in Czech: | Rozpoznávání koreference pro Universal Dependencies |
---|---|
Thesis title in English: | Coreference resolution for Universal Dependencies |
Key words: | rozpoznávání koreference, koreference, anafora, Universal Dependencies, UD |
English key words: | coreference resolution, coreference, anaphora, Universal Dependencies, UD |
Academic year of topic announcement: | 2016/2017 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | Mgr. Michal Novák, Ph.D. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 29.06.2017 |
Date of assignment: | 30.06.2017 |
Confirmed by Study dept. on: | 10.07.2017 |
Date and time of defence: | 22.06.2018 09:00 |
Date of electronic submission: | 18.05.2018 |
Date of submission of printed version: | 18.05.2018 |
Date of proceeded defence: | 22.06.2018 |
Opponents: | Mgr. Rudolf Rosa, Ph.D. |
Guidelines |
Koreference nebo odkazování je jedním ze základních prostředků udržení koherence textu. Častými odkazujícími výrazy jsou např. zájmena, jejichž význam je mnohdy těžké určit bez určení, k čemu v reálném světě odkazují. Úloha automatického propojování výrazů odkazujících ke stejné entitě se nazývá "rozpoznávání koreference". V počítačové lingvistice se jedná o poměrně etablovanou úlohu.
Anotační projekt Universal Dependencies (UD) má za cíl vytvořit co nejvíc jazykově univerzální popis morfologie a závislostní syntaxe. Doteď je pod hlavičkou UD jednotným stylem a ve stejném formátu CoNLL-U manuálně anotováno více než 100 korpusů ve více než 60 jazycích. Možnost anotace koreference v takto bohatém jazykovém zdroji však zatím chybí. Cílů bakalářské práce je několik: 1) navrhnout způsob anotace koreference v UD ve formátu CoNLL-U, 2) převést některá veřejně dostupná data s anotací koreference do stylu UD a formátu navrženého v předchozím bodě, 3) naimplementovat systém na rozpoznávání koreference, který bude pracovat s daty ve stylu UD; systém může využívat informace z automatické morfologické a syntaktické analýzy textů pomocí nástroje UDPipe, 4) základním způsobem vyhodnotit kvalitu rozpoznávání koreference. Více než na bohatost systému na rozpoznávání a jeho úspěšnost bude kladen důraz na jeho jazykovou univerzálnost. Řešitel by proto měl systém otestovat na minimálně dvou typologicky rozdílných jazycích a měl by se rovněž zaměřit právě na zájmena, jejichž vlastnosti se často napříč jazyky liší. Důraz na univerzálnost by se měl projevit i v architektuře systému, kdy např. případné jazykově závislé prvky systému budou zřetelně odděleny. Univerzálnosti se řešitel také může přiblížit modelováním úlohy pomocí metod strojového učení. Systém by měl být rovněž implementován v rámci nějakého obecnějšího nástroje pro práci s UD, např. Udapi. Tím se zjednoduší přístup k nástroji a jeho další případné použití a rozšíření v rámci komunity. |
References |
Nedoluzhko, Anna: Rozšířená textová koreference a asociační anafora (Koncepce anotace českých dat v Pražském závislostním korpusu). Ústav formální a aplikované lingvistiky, Praha, ČR, 2011
Ng, Vincent: Supervised Noun Phrase Coreference Research: The First Fifteen Years. In Proceedings of the 48th Annual Meeting of the ACL, Association for Computational Linguistics, Stroudsburg, PA, USA, 2010 dokumentace k UD a CoNLL-U (http://universaldependencies.org/) dokumentace k Udapi (https://udapi.github.io/) |