Převod složkových syntakticky anotovaných korpusů do závislostní podoby
Thesis title in Czech: | Převod složkových syntakticky anotovaných korpusů do závislostní podoby |
---|---|
Thesis title in English: | Conversion of Phrase-based Treebanks into Dependency Form |
Academic year of topic announcement: | 2008/2009 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Author: |
References |
1. Dokumentace k vybraným syntakticky anotovaným korpusům dostupná na WWW
2. Žabokrtský, Z.; Smrž, O.: Arabic Syntactic Trees: from Constituency to Dependency. EACL 2003, Budapest, 2003. |
Preliminary scope of work |
Cílem práce je seznámit se s existujícím syntaktický anotovanými korpusy založenými
na složkových formalismech a implementovat jejich převod do podoby analytických a (zjednodušených) tektogramatických závislostních stromů. V práci budou zastoupeny nejméně čtyři korpusy, pokud možno z odlišných typologických jazykových skupin (např. angličtina, čínština, maďarština, bulharština). Budou porovnáný výhody a nevýhody obou typů popisu syntaxe pro jednotlivé jazyky a zaměří se na problématická místa převodu (např. zpracování stop (traces), koordinací, atd.). |
Preliminary scope of work in English |
The goal of the work is to become acquainted with the existing phrase-based syntactically annotated
corpora (treebanks) and to implement their conversion into the analytical and (simplified) tectogrammatical dependency annotation scheme. At least four different corpora will be used, preferably from different typological language families (such as English, Chinese, Hungarian, and Bulgarian). Advantages and disadvantages of the two approaches will be studies using the experience from the conversion; problematic subtasks of the conversion (such as handling traces or coordination) will be presented too. |