Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Vývoj anotačního nástroje pro Universal Dependencies
Název práce v češtině: Vývoj anotačního nástroje pro Universal Dependencies
Název v anglickém jazyce: Development of an Annotation Tool for Universal Dependencies
Klíčová slova: anotace, morfologie, syntaktické závislosti
Klíčová slova anglicky: annotation, morphology, syntactic dependencies
Akademický rok vypsání: 2018/2019
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: RNDr. Daniel Zeman, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 19.09.2018
Datum zadání: 22.09.2018
Datum potvrzení stud. oddělením: 14.05.2019
Datum a čas obhajoby: 27.06.2019 09:30
Datum odevzdání elektronické podoby:13.05.2019
Datum odevzdání tištěné podoby:17.05.2019
Datum proběhlé obhajoby: 27.06.2019
Oponenti: RNDr. Jiří Mírovský, Ph.D.
 
 
 
Zásady pro vypracování
Cílem práce je vyvinout a implementovat softwarový nástroj, který umožňuje editovat lingvisticky anotovaná data, konkrétně texty anotované podle pravidel Universal Dependencies. Nástroj musí umět pracovat s formátem souboru CoNLL-U. Uživatel buď otevře existující soubor CoNLL-U, provádí úpravy dat a poté je uloží opět ve formátu CoNLL-U, nebo načte věty přirozeného jazyka z prostého textového souboru (případně je převezme přímo z editačního okna) a uloží je ve formátu CoNLL-U včetně anotací, které k nim uživatel přidá. Anotace jsou několika druhů: 1. hranice slov (tokenů) a vět; 2. komentáře (popř. s metadaty) na úrovni věty; 3. různé atributy jednotlivých slov, definované formátem CoNLL-U, např. značky slovních druhů, morfologických kategorií, základní tvar slova atd.; 4. strukturní (syntaktická) anotace, tj. závislost jednoho slova na jiném, zobrazená jako orientovaný graf s kořenem (v základní verzi orientovaný strom, v rozšířené verzi obecný orientovaný graf). Strukturní anotace bude v nástroji vhodně vizualizována jako strom (graf) s kořenem, přičemž závislost slova bude možné změnit tak, že uzel slova přetáhneme myší na nový rodičovský uzel. Inspirací může být starší existující nástroj Tred. Nástroj by měl rovněž umožňovat vyhledávání podle části věty nebo hodnot jednotlivých atributů. Ovládání programu by mělo být co možná nejintuitivnější, zároveň by ale měly být k dispozici editační metody, které zkušeným anotátorům umožní postupovat rychle (např. klávesové zkratky pro často zadávané hodnoty atributů). Hlavní výzvou této práce je zamyslet se nad specifiky tohoto druhu dat a nad možnostmi, jak je co nejlépe vizualizovat a upravovat.
Seznam odborné literatury
Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajič, Christopher Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, Daniel Zeman (2016): Universal Dependencies v1: A Multilingual Treebank Collection. In: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), pp. 1659-1666, European Language Resources Association, Paris, France, ISBN 978-2-9517408-9-1

http://universaldependencies.org/

http://ufal.mff.cuni.cz/tred/
Předběžná náplň práce
Účelem práce bylo vyvinout uživatelsky příjemný nástroj pro rozbor věty. Jedná o aplikaci, v níž má uživatel možnost editovat lingvisticky anotovaná data, konkrétně texty anotované podle pravidel Universal Dependencies. Aplikace umí pracovat s formátem souboru CoNLL-U, lze tedy takový soubor načíst a později do něj úpravy uložit. Vizualizace přehledně a srozumitelně zachycuje strukturu a ostatní anotace věty, které lze jednoduchým způsobem editovat. Nástroj také podporuje vyhledávání v souboru na základě části věty či hodnot atributů slova. Cílem práce bylo zamyslet se nad možnostmi, jak data tohoto druhu nejlépe vizualizovat a upravovat.
Předběžná náplň práce v anglickém jazyce
The purpose of the work was to develop a user-friendly tool for sentence analysis. It is an application in which the user has the possibility to edit linguistically annotated data, specifically texts annotated according to the Universal Dependencies rules. The application works with the CoNLL-U file format, so you can load such a file and save it later. Visualization clearly and comprehensibly captures the structure and other annotations of a sentence that can be easily edited. The tool also supports file search based on the sentence or word attribute values. The aim of this work was to think about the possibilities how to visualize and modify the data of this kind.
 
Univerzita Karlova | Informační systém UK