Thesis (Selection of subject)

Your browser does not support JavaScript, or its support is disabled. Some features may not be available.

Rozpoznávání koreference pro Universal Dependencies

Thesis title in Czech:	Rozpoznávání koreference pro Universal Dependencies
Thesis title in English:	Coreference resolution for Universal Dependencies
Key words:	rozpoznávání koreference, koreference, anafora, Universal Dependencies, UD
English key words:	coreference resolution, coreference, anaphora, Universal Dependencies, UD
Academic year of topic announcement:	2016/2017
Thesis type:	Bachelor's thesis
Thesis language:	čeština
Department:	Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor:	Mgr. Michal Novák, Ph.D.
Author:	hidden - assigned and confirmed by the Study Dept.
Date of registration:	29.06.2017
Date of assignment:	30.06.2017
Confirmed by Study dept. on:	10.07.2017
Date and time of defence:	22.06.2018 09:00
Date of electronic submission:	18.05.2018
Date of submission of printed version:	18.05.2018
Date of proceeded defence:	22.06.2018
Opponents:	Mgr. Rudolf Rosa, Ph.D.

Guidelines

Koreference nebo odkazování je jedním ze základních prostředků udržení koherence textu. Častými odkazujícími výrazy jsou např. zájmena, jejichž význam je mnohdy těžké určit bez určení, k čemu v reálném světě odkazují. Úloha automatického propojování výrazů odkazujících ke stejné entitě se nazývá "rozpoznávání koreference". V počítačové lingvistice se jedná o poměrně etablovanou úlohu.

Anotační projekt Universal Dependencies (UD) má za cíl vytvořit co nejvíc jazykově univerzální popis morfologie a závislostní syntaxe. Doteď je pod hlavičkou UD jednotným stylem a ve stejném formátu CoNLL-U manuálně anotováno více než 100 korpusů ve více než 60 jazycích. Možnost anotace koreference v takto bohatém jazykovém zdroji však zatím chybí.

Cílů bakalářské práce je několik:
1) navrhnout způsob anotace koreference v UD ve formátu CoNLL-U,
2) převést některá veřejně dostupná data s anotací koreference do stylu UD a formátu navrženého v předchozím bodě,
3) naimplementovat systém na rozpoznávání koreference, který bude pracovat s daty ve stylu UD; systém může využívat informace z automatické morfologické a syntaktické analýzy textů pomocí nástroje UDPipe,
4) základním způsobem vyhodnotit kvalitu rozpoznávání koreference.

Více než na bohatost systému na rozpoznávání a jeho úspěšnost bude kladen důraz na jeho jazykovou univerzálnost. Řešitel by proto měl systém otestovat na minimálně dvou typologicky rozdílných jazycích a měl by se rovněž zaměřit právě na zájmena, jejichž vlastnosti se často napříč jazyky liší. Důraz na univerzálnost by se měl projevit i v architektuře systému, kdy např. případné jazykově závislé prvky systému budou zřetelně odděleny. Univerzálnosti se řešitel také může přiblížit modelováním úlohy pomocí metod strojového učení.

Systém by měl být rovněž implementován v rámci nějakého obecnějšího nástroje pro práci s UD, např. Udapi. Tím se zjednoduší přístup k nástroji a jeho další případné použití a rozšíření v rámci komunity.

References

Nedoluzhko, Anna: Rozšířená textová koreference a asociační anafora (Koncepce anotace českých dat v Pražském závislostním korpusu). Ústav formální a aplikované lingvistiky, Praha, ČR, 2011

Ng, Vincent: Supervised Noun Phrase Coreference Research: The First Fifteen Years. In Proceedings of the 48th Annual Meeting of the ACL, Association for Computational Linguistics, Stroudsburg, PA, USA, 2010

dokumentace k UD a CoNLL-U (http://universaldependencies.org/)

dokumentace k Udapi (https://udapi.github.io/)