Rozpoznávání koreference pro Universal Dependencies
Název práce v češtině: | Rozpoznávání koreference pro Universal Dependencies |
---|---|
Název v anglickém jazyce: | Coreference resolution for Universal Dependencies |
Klíčová slova: | rozpoznávání koreference, koreference, anafora, Universal Dependencies, UD |
Klíčová slova anglicky: | coreference resolution, coreference, anaphora, Universal Dependencies, UD |
Akademický rok vypsání: | 2016/2017 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | Mgr. Michal Novák, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 29.06.2017 |
Datum zadání: | 30.06.2017 |
Datum potvrzení stud. oddělením: | 10.07.2017 |
Datum a čas obhajoby: | 22.06.2018 09:00 |
Datum odevzdání elektronické podoby: | 18.05.2018 |
Datum odevzdání tištěné podoby: | 18.05.2018 |
Datum proběhlé obhajoby: | 22.06.2018 |
Oponenti: | Mgr. Rudolf Rosa, Ph.D. |
Zásady pro vypracování |
Koreference nebo odkazování je jedním ze základních prostředků udržení koherence textu. Častými odkazujícími výrazy jsou např. zájmena, jejichž význam je mnohdy těžké určit bez určení, k čemu v reálném světě odkazují. Úloha automatického propojování výrazů odkazujících ke stejné entitě se nazývá "rozpoznávání koreference". V počítačové lingvistice se jedná o poměrně etablovanou úlohu.
Anotační projekt Universal Dependencies (UD) má za cíl vytvořit co nejvíc jazykově univerzální popis morfologie a závislostní syntaxe. Doteď je pod hlavičkou UD jednotným stylem a ve stejném formátu CoNLL-U manuálně anotováno více než 100 korpusů ve více než 60 jazycích. Možnost anotace koreference v takto bohatém jazykovém zdroji však zatím chybí. Cílů bakalářské práce je několik: 1) navrhnout způsob anotace koreference v UD ve formátu CoNLL-U, 2) převést některá veřejně dostupná data s anotací koreference do stylu UD a formátu navrženého v předchozím bodě, 3) naimplementovat systém na rozpoznávání koreference, který bude pracovat s daty ve stylu UD; systém může využívat informace z automatické morfologické a syntaktické analýzy textů pomocí nástroje UDPipe, 4) základním způsobem vyhodnotit kvalitu rozpoznávání koreference. Více než na bohatost systému na rozpoznávání a jeho úspěšnost bude kladen důraz na jeho jazykovou univerzálnost. Řešitel by proto měl systém otestovat na minimálně dvou typologicky rozdílných jazycích a měl by se rovněž zaměřit právě na zájmena, jejichž vlastnosti se často napříč jazyky liší. Důraz na univerzálnost by se měl projevit i v architektuře systému, kdy např. případné jazykově závislé prvky systému budou zřetelně odděleny. Univerzálnosti se řešitel také může přiblížit modelováním úlohy pomocí metod strojového učení. Systém by měl být rovněž implementován v rámci nějakého obecnějšího nástroje pro práci s UD, např. Udapi. Tím se zjednoduší přístup k nástroji a jeho další případné použití a rozšíření v rámci komunity. |
Seznam odborné literatury |
Nedoluzhko, Anna: Rozšířená textová koreference a asociační anafora (Koncepce anotace českých dat v Pražském závislostním korpusu). Ústav formální a aplikované lingvistiky, Praha, ČR, 2011
Ng, Vincent: Supervised Noun Phrase Coreference Research: The First Fifteen Years. In Proceedings of the 48th Annual Meeting of the ACL, Association for Computational Linguistics, Stroudsburg, PA, USA, 2010 dokumentace k UD a CoNLL-U (http://universaldependencies.org/) dokumentace k Udapi (https://udapi.github.io/) |