Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Rozpoznávání koreference pro Universal Dependencies

Název práce v češtině:	Rozpoznávání koreference pro Universal Dependencies
Název v anglickém jazyce:	Coreference resolution for Universal Dependencies
Klíčová slova:	rozpoznávání koreference, koreference, anafora, Universal Dependencies, UD
Klíčová slova anglicky:	coreference resolution, coreference, anaphora, Universal Dependencies, UD
Akademický rok vypsání:	2016/2017
Typ práce:	bakalářská práce
Jazyk práce:	čeština
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	Mgr. Michal Novák, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	29.06.2017
Datum zadání:	30.06.2017
Datum potvrzení stud. oddělením:	10.07.2017
Datum a čas obhajoby:	22.06.2018 09:00
Datum odevzdání elektronické podoby:	18.05.2018
Datum odevzdání tištěné podoby:	18.05.2018
Datum proběhlé obhajoby:	22.06.2018
Oponenti:	Mgr. Rudolf Rosa, Ph.D.

Zásady pro vypracování

Koreference nebo odkazování je jedním ze základních prostředků udržení koherence textu. Častými odkazujícími výrazy jsou např. zájmena, jejichž význam je mnohdy těžké určit bez určení, k čemu v reálném světě odkazují. Úloha automatického propojování výrazů odkazujících ke stejné entitě se nazývá "rozpoznávání koreference". V počítačové lingvistice se jedná o poměrně etablovanou úlohu.

Anotační projekt Universal Dependencies (UD) má za cíl vytvořit co nejvíc jazykově univerzální popis morfologie a závislostní syntaxe. Doteď je pod hlavičkou UD jednotným stylem a ve stejném formátu CoNLL-U manuálně anotováno více než 100 korpusů ve více než 60 jazycích. Možnost anotace koreference v takto bohatém jazykovém zdroji však zatím chybí.

Cílů bakalářské práce je několik:
1) navrhnout způsob anotace koreference v UD ve formátu CoNLL-U,
2) převést některá veřejně dostupná data s anotací koreference do stylu UD a formátu navrženého v předchozím bodě,
3) naimplementovat systém na rozpoznávání koreference, který bude pracovat s daty ve stylu UD; systém může využívat informace z automatické morfologické a syntaktické analýzy textů pomocí nástroje UDPipe,
4) základním způsobem vyhodnotit kvalitu rozpoznávání koreference.

Více než na bohatost systému na rozpoznávání a jeho úspěšnost bude kladen důraz na jeho jazykovou univerzálnost. Řešitel by proto měl systém otestovat na minimálně dvou typologicky rozdílných jazycích a měl by se rovněž zaměřit právě na zájmena, jejichž vlastnosti se často napříč jazyky liší. Důraz na univerzálnost by se měl projevit i v architektuře systému, kdy např. případné jazykově závislé prvky systému budou zřetelně odděleny. Univerzálnosti se řešitel také může přiblížit modelováním úlohy pomocí metod strojového učení.

Systém by měl být rovněž implementován v rámci nějakého obecnějšího nástroje pro práci s UD, např. Udapi. Tím se zjednoduší přístup k nástroji a jeho další případné použití a rozšíření v rámci komunity.

Seznam odborné literatury

Nedoluzhko, Anna: Rozšířená textová koreference a asociační anafora (Koncepce anotace českých dat v Pražském závislostním korpusu). Ústav formální a aplikované lingvistiky, Praha, ČR, 2011

Ng, Vincent: Supervised Noun Phrase Coreference Research: The First Fifteen Years. In Proceedings of the 48th Annual Meeting of the ACL, Association for Computational Linguistics, Stroudsburg, PA, USA, 2010

dokumentace k UD a CoNLL-U (http://universaldependencies.org/)

dokumentace k Udapi (https://udapi.github.io/)