Thesis (Selection of subject)Thesis (Selection of subject)(version: 341)
Assignment details
   Login via CAS
Vývoj anotačního nástroje pro Universal Dependencies
Thesis title in Czech: Vývoj anotačního nástroje pro Universal Dependencies
Thesis title in English: Development of an Annotation Tool for Universal Dependencies
Key words: anotace, morfologie, syntaktické závislosti
English key words: annotation, morphology, syntactic dependencies
Academic year of topic announcement: 2018/2019
Type of assignment: Bachelor's thesis
Thesis language: čeština
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: RNDr. Daniel Zeman, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 19.09.2018
Date of assignment: 22.09.2018
Confirmed by Study dept. on: 14.05.2019
Date and time of defence: 27.06.2019 09:30
Date of electronic submission:13.05.2019
Date of submission of printed version:17.05.2019
Date of proceeded defence: 27.06.2019
Reviewers: RNDr. Jiří Mírovský, Ph.D.
 
 
 
Guidelines
Cílem práce je vyvinout a implementovat softwarový nástroj, který umožňuje editovat lingvisticky anotovaná data, konkrétně texty anotované podle pravidel Universal Dependencies. Nástroj musí umět pracovat s formátem souboru CoNLL-U. Uživatel buď otevře existující soubor CoNLL-U, provádí úpravy dat a poté je uloží opět ve formátu CoNLL-U, nebo načte věty přirozeného jazyka z prostého textového souboru (případně je převezme přímo z editačního okna) a uloží je ve formátu CoNLL-U včetně anotací, které k nim uživatel přidá. Anotace jsou několika druhů: 1. hranice slov (tokenů) a vět; 2. komentáře (popř. s metadaty) na úrovni věty; 3. různé atributy jednotlivých slov, definované formátem CoNLL-U, např. značky slovních druhů, morfologických kategorií, základní tvar slova atd.; 4. strukturní (syntaktická) anotace, tj. závislost jednoho slova na jiném, zobrazená jako orientovaný graf s kořenem (v základní verzi orientovaný strom, v rozšířené verzi obecný orientovaný graf). Strukturní anotace bude v nástroji vhodně vizualizována jako strom (graf) s kořenem, přičemž závislost slova bude možné změnit tak, že uzel slova přetáhneme myší na nový rodičovský uzel. Inspirací může být starší existující nástroj Tred. Nástroj by měl rovněž umožňovat vyhledávání podle části věty nebo hodnot jednotlivých atributů. Ovládání programu by mělo být co možná nejintuitivnější, zároveň by ale měly být k dispozici editační metody, které zkušeným anotátorům umožní postupovat rychle (např. klávesové zkratky pro často zadávané hodnoty atributů). Hlavní výzvou této práce je zamyslet se nad specifiky tohoto druhu dat a nad možnostmi, jak je co nejlépe vizualizovat a upravovat.
References
Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajič, Christopher Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, Daniel Zeman (2016): Universal Dependencies v1: A Multilingual Treebank Collection. In: Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), pp. 1659-1666, European Language Resources Association, Paris, France, ISBN 978-2-9517408-9-1

http://universaldependencies.org/

http://ufal.mff.cuni.cz/tred/
Preliminary scope of work
Účelem práce bylo vyvinout uživatelsky příjemný nástroj pro rozbor věty. Jedná o aplikaci, v níž má uživatel možnost editovat lingvisticky anotovaná data, konkrétně texty anotované podle pravidel Universal Dependencies. Aplikace umí pracovat s formátem souboru CoNLL-U, lze tedy takový soubor načíst a později do něj úpravy uložit. Vizualizace přehledně a srozumitelně zachycuje strukturu a ostatní anotace věty, které lze jednoduchým způsobem editovat. Nástroj také podporuje vyhledávání v souboru na základě části věty či hodnot atributů slova. Cílem práce bylo zamyslet se nad možnostmi, jak data tohoto druhu nejlépe vizualizovat a upravovat.
Preliminary scope of work in English
The purpose of the work was to develop a user-friendly tool for sentence analysis. It is an application in which the user has the possibility to edit linguistically annotated data, specifically texts annotated according to the Universal Dependencies rules. The application works with the CoNLL-U file format, so you can load such a file and save it later. Visualization clearly and comprehensibly captures the structure and other annotations of a sentence that can be easily edited. The tool also supports file search based on the sentence or word attribute values. The aim of this work was to think about the possibilities how to visualize and modify the data of this kind.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html