Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Rozpoznávání koreference pro Universal Dependencies
Thesis title in Czech: Rozpoznávání koreference pro Universal Dependencies
Thesis title in English: Coreference resolution for Universal Dependencies
Key words: rozpoznávání koreference, koreference, anafora, Universal Dependencies, UD
English key words: coreference resolution, coreference, anaphora, Universal Dependencies, UD
Academic year of topic announcement: 2016/2017
Thesis type: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: Mgr. Michal Novák, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 29.06.2017
Date of assignment: 30.06.2017
Confirmed by Study dept. on: 10.07.2017
Date and time of defence: 22.06.2018 09:00
Date of electronic submission:18.05.2018
Date of submission of printed version:18.05.2018
Date of proceeded defence: 22.06.2018
Opponents: Mgr. Rudolf Rosa, Ph.D.
 
 
 
Guidelines
Koreference nebo odkazování je jedním ze základních prostředků udržení koherence textu. Častými odkazujícími výrazy jsou např. zájmena, jejichž význam je mnohdy těžké určit bez určení, k čemu v reálném světě odkazují. Úloha automatického propojování výrazů odkazujících ke stejné entitě se nazývá "rozpoznávání koreference". V počítačové lingvistice se jedná o poměrně etablovanou úlohu.

Anotační projekt Universal Dependencies (UD) má za cíl vytvořit co nejvíc jazykově univerzální popis morfologie a závislostní syntaxe. Doteď je pod hlavičkou UD jednotným stylem a ve stejném formátu CoNLL-U manuálně anotováno více než 100 korpusů ve více než 60 jazycích. Možnost anotace koreference v takto bohatém jazykovém zdroji však zatím chybí.

Cílů bakalářské práce je několik:
1) navrhnout způsob anotace koreference v UD ve formátu CoNLL-U,
2) převést některá veřejně dostupná data s anotací koreference do stylu UD a formátu navrženého v předchozím bodě,
3) naimplementovat systém na rozpoznávání koreference, který bude pracovat s daty ve stylu UD; systém může využívat informace z automatické morfologické a syntaktické analýzy textů pomocí nástroje UDPipe,
4) základním způsobem vyhodnotit kvalitu rozpoznávání koreference.

Více než na bohatost systému na rozpoznávání a jeho úspěšnost bude kladen důraz na jeho jazykovou univerzálnost. Řešitel by proto měl systém otestovat na minimálně dvou typologicky rozdílných jazycích a měl by se rovněž zaměřit právě na zájmena, jejichž vlastnosti se často napříč jazyky liší. Důraz na univerzálnost by se měl projevit i v architektuře systému, kdy např. případné jazykově závislé prvky systému budou zřetelně odděleny. Univerzálnosti se řešitel také může přiblížit modelováním úlohy pomocí metod strojového učení.

Systém by měl být rovněž implementován v rámci nějakého obecnějšího nástroje pro práci s UD, např. Udapi. Tím se zjednoduší přístup k nástroji a jeho další případné použití a rozšíření v rámci komunity.
References
Nedoluzhko, Anna: Rozšířená textová koreference a asociační anafora (Koncepce anotace českých dat v Pražském závislostním korpusu). Ústav formální a aplikované lingvistiky, Praha, ČR, 2011

Ng, Vincent: Supervised Noun Phrase Coreference Research: The First Fifteen Years. In Proceedings of the 48th Annual Meeting of the ACL, Association for Computational Linguistics, Stroudsburg, PA, USA, 2010

dokumentace k UD a CoNLL-U (http://universaldependencies.org/)

dokumentace k Udapi (https://udapi.github.io/)
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html