Language Data Resources II - NPFL076
Annotation -
| |
|
The seminar is aimed at obtaining practical experience in application of knowledge from Language Resouces I in the Linux/Perl environment.
Last update: T_UFAL (10.05.2006)
Seminář je zaměřen na praktické procvičení znalostí z předmětu Zdroje lingvistických dat I v prostředí Linux/Perl.
Last update: T_UFAL (10.05.2006)
|
|
Vybrané články z konferencí (LREC, ACL atd.), technické zprávy ÚFAL/CKL.
(Selected conference papers (LREC, ACL etc.), UFAL/CKL technical reports.)
Last update: T_UFAL (10.05.2006)
|
Syllabus -
| |
|
1) Short introduction into programming language Perl
- basic processing of textual data
2) Language resources in XML
- declaration (DTD, schemata)
3) PDT 2.0 data processing
- btred/ntred batch processing of PDT 2.0 data
4) Processing of other languages resources
- conversion from other formats/formalisms/languages (including the typologically distant languages)
- mutual conversion of dependency and constituency structures
- rapid development of syntactically tagged data for languages with scarce resources
5) Experiment evaluation
- precision/recall in morphological and syntactical tagging
- 10-fold cross evaluation, significance tests
Last update: T_UFAL (10.05.2006)
1) Stručný úvod do programovacího jazyka Perl
- základní techniky zpracování textových dat
2) Lingvistická data ve formátu XML
- transformace v jazyku XSL
- dotazování v jazyku XPath
3) Zpracování dat z PDT 2.0
- datové formáty použité v PDT
- dávkové zpracování souborů z PDT 2.0 v prostředí btred/ntred
4) Zpracování dat z dalších jazyků
- konverze lingvistických zdrojů z jiných formátů/formalismů/jazyků (včetně jazyků typologicky vzdálených)
- vzájemný převod složkové a závislostní orientovaných struktur
- extrémní vývoj syntakticky značkovaných dat pro jazyky bez existujících treebanků
5) Vyhodnocování experimentů
- precision/recall v morfologickém a syntaktickém značkování
- 10-fold cross evaluation, testy signifikance
Last update: T_UFAL (22.05.2006)
|