Automatická anotace angličtiny na tektogramatické rovině
Thesis title in Czech: | Automatická anotace angličtiny na tektogramatické rovině |
---|---|
Thesis title in English: | Automatic annotation of English on the tectogrammatical level |
Academic year of topic announcement: | 2008/2009 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | prof. RNDr. Jan Hajič, Dr. |
Author: | hidden - assigned and confirmed by the Study Dept. |
Date of registration: | 29.09.2008 |
Date of assignment: | 29.09.2008 |
Date and time of defence: | 11.05.2009 00:00 |
Date of electronic submission: | 11.05.2009 |
Date of proceeded defence: | 11.05.2009 |
Opponents: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Guidelines |
Úkolem projektu PEDT (Prague English Dependency Treebank) je anotovat věty z PTB (Penn Treebank) na tektogramatické rovině. PTB obsahuje mnoha cenných lingvistických informací, které se však nedají přímo využít kvůli odlišnému formátu dat (např. závislostní vs. složková syntax). Existuje i několik korpusů, které rozšiřují PTB o anotaci dalších jevů (pojmenované entity, koreference atd.). Úkolem diplomanta je využít všech těchto zdrojů k přípravě dat co nejvhodnějších pro tvorbu systémů pro analýzu angličtiny. Cílem je minimalizace času potřebného k následné manuální anotaci. Součástí práce bude vyhodnocení úspěšnosti automatické anotace, které bude založeno na datech odevzdávaných anotátory a standardních evaluačních metrikách.
|
References |
- http://www.cis.upenn.edu/~treebank/
- Marcus, M. et al (1993): Building a large annotated corpus of English: the Penn Treebank, Computational Linguistics, v.19 n.2, June 1993 - David Vadas, James Curran (2007): Adding Noun Phrase Structure to the Penn Treebank, In Proceedings of the 45th Annual Meeting of the ACL, June 2007, p. 240-247. - http://www.ldc.upenn.edu/Catalog/docs/LDC2005T33 - Cinková, S. et al. (2006): Annotation of English on the Tectogrammatical Level, Tech. Rep. |
Preliminary scope of work |
Automatická konverze dat z PTB a z dalších lingvistických zdrojů do PEDT. Cílem je minimalizace času potřebného k následné manuální anotaci. |
Preliminary scope of work in English |
Automatic data conversion from PTB and other linguistic resources to PEDT. The goal is to minimalize the amount of time required for a subsequent manual annotation. |