Převod složkových syntakticky anotovaných korpusů do závislostní podoby
Název práce v češtině: | Převod složkových syntakticky anotovaných korpusů do závislostní podoby |
---|---|
Název v anglickém jazyce: | Conversion of Phrase-based Treebanks into Dependency Form |
Akademický rok vypsání: | 2008/2009 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. Ing. Zdeněk Žabokrtský, Ph.D. |
Řešitel: |
Seznam odborné literatury |
1. Dokumentace k vybraným syntakticky anotovaným korpusům dostupná na WWW
2. Žabokrtský, Z.; Smrž, O.: Arabic Syntactic Trees: from Constituency to Dependency. EACL 2003, Budapest, 2003. |
Předběžná náplň práce |
Cílem práce je seznámit se s existujícím syntaktický anotovanými korpusy založenými
na složkových formalismech a implementovat jejich převod do podoby analytických a (zjednodušených) tektogramatických závislostních stromů. V práci budou zastoupeny nejméně čtyři korpusy, pokud možno z odlišných typologických jazykových skupin (např. angličtina, čínština, maďarština, bulharština). Budou porovnáný výhody a nevýhody obou typů popisu syntaxe pro jednotlivé jazyky a zaměří se na problématická místa převodu (např. zpracování stop (traces), koordinací, atd.). |
Předběžná náplň práce v anglickém jazyce |
The goal of the work is to become acquainted with the existing phrase-based syntactically annotated
corpora (treebanks) and to implement their conversion into the analytical and (simplified) tectogrammatical dependency annotation scheme. At least four different corpora will be used, preferably from different typological language families (such as English, Chinese, Hungarian, and Bulgarian). Advantages and disadvantages of the two approaches will be studies using the experience from the conversion; problematic subtasks of the conversion (such as handling traces or coordination) will be presented too. |