Automatické vyhledávání chyb v syntakticky anotovaných korpusech

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Název práce v češtině:	Automatické vyhledávání chyb v syntakticky anotovaných korpusech
Název v anglickém jazyce:	Automatic Error Detection in Treebanks
Akademický rok vypsání:	2008/2009
Typ práce:	diplomová práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	prof. Ing. Zdeněk Žabokrtský, Ph.D.
Řešitel:

Seznam odborné literatury

1. Dokumentace k Pražskému závislostnímu korpusu (čeština), korpusu
Penn Treebank (angličtina), korpusu Tiger Treebank (němčina)
dostupná na WWW.

2. Štěpánek, Jan: Závislostní zachycení větné struktury v anotovaném
syntaktickém korpusu (nástroje pro zajištění konzistence dat),
disertační práce, MFF UK 2006

Předběžná náplň práce

V současné době existují syntakticky anotované korpusy pro několik
jazyků (angličtina, čeština, němčina, maďarština, čínština) a pro
další vznikají. Ani u ručně značkovaných
korpusů nelze bohužel zaručit stoprocentní správnost anotace, ať už z
důvodu chyby anotátora, postupných úprav anotačního schématu,
vágních anotačních instrukcí atd., cílem práce je proto navrhnout a
implementovat metodu pro automatické odhalování a klasifikaci
chyb v těchto korpusech. Lze využít hypotézu,
že pokrývají-li dva syntaktické podstromy identickou (nebo v nějakém
ohledu podobnou) posloupnost slov vstupní věty, měly by samy být až na ohodnocení
kořenového uzlu rovněž identické (nebo podobné). Metoda bude
testována a vyhodnocena na existujících korpusech pro nejméně čtyři jazyky.

Předběžná náplň práce v anglickém jazyce

Nowadays, there are syntactically annotated corpora (treebanks) available
for various languages (such as English, Czech, German, Hungarian, Chinese), and
new treebanks are still being created. Unfortunately it is not possible to guarantee
100% correctness even in the case of manual annotation, be the errors caused
by annotators' wrong decisions, unstable annotation scheme, vague annotation instructions etc.
The goal of this work is to design and implement a system for automatic
detection and classification of treebank errors. The following hypothesis can
be used: if two syntactic subtrees cover the same (or similar, in some aspect) sequences of
words, then the subtrees should be identical (or similar) too, perhaps with exception
of root labels. The system should be tested and evaluated using
the existing treebank for at least four languages.