Automatické vyhledávání chyb v syntakticky anotovaných korpusech
Název práce v češtině: | Automatické vyhledávání chyb v syntakticky anotovaných korpusech |
---|---|
Název v anglickém jazyce: | Automatic Error Detection in Treebanks |
Akademický rok vypsání: | 2008/2009 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Řešitel: |
Seznam odborné literatury |
1. Dokumentace k Pražskému závislostnímu korpusu (čeština), korpusu
Penn Treebank (angličtina), korpusu Tiger Treebank (němčina) dostupná na WWW. 2. Štěpánek, Jan: Závislostní zachycení větné struktury v anotovaném syntaktickém korpusu (nástroje pro zajištění konzistence dat), disertační práce, MFF UK 2006 |
Předběžná náplň práce |
V současné době existují syntakticky anotované korpusy pro několik
jazyků (angličtina, čeština, němčina, maďarština, čínština) a pro další vznikají. Ani u ručně značkovaných korpusů nelze bohužel zaručit stoprocentní správnost anotace, ať už z důvodu chyby anotátora, postupných úprav anotačního schématu, vágních anotačních instrukcí atd., cílem práce je proto navrhnout a implementovat metodu pro automatické odhalování a klasifikaci chyb v těchto korpusech. Lze využít hypotézu, že pokrývají-li dva syntaktické podstromy identickou (nebo v nějakém ohledu podobnou) posloupnost slov vstupní věty, měly by samy být až na ohodnocení kořenového uzlu rovněž identické (nebo podobné). Metoda bude testována a vyhodnocena na existujících korpusech pro nejméně čtyři jazyky. |
Předběžná náplň práce v anglickém jazyce |
Nowadays, there are syntactically annotated corpora (treebanks) available
for various languages (such as English, Czech, German, Hungarian, Chinese), and new treebanks are still being created. Unfortunately it is not possible to guarantee 100% correctness even in the case of manual annotation, be the errors caused by annotators' wrong decisions, unstable annotation scheme, vague annotation instructions etc. The goal of this work is to design and implement a system for automatic detection and classification of treebank errors. The following hypothesis can be used: if two syntactic subtrees cover the same (or similar, in some aspect) sequences of words, then the subtrees should be identical (or similar) too, perhaps with exception of root labels. The system should be tested and evaluated using the existing treebank for at least four languages. |