Zdroje lingvistických dat II - NPFL076
Anglický název: Language Data Resources II
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2010
Semestr: letní
E-Kredity: 3
Rozsah, examinace: letní s.:0/2, KZ [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: zrušen
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Garant: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Korekvizity : NPFL070
Výsledky anket   Termíny zkoušek   Rozvrh   Nástěnka   
Anotace -
Poslední úprava: T_UFAL (10.05.2006)
Seminář je zaměřen na praktické procvičení znalostí z předmětu Zdroje lingvistických dat I v prostředí Linux/Perl.
Literatura
Poslední úprava: T_UFAL (10.05.2006)

Vybrané články z konferencí (LREC, ACL atd.), technické zprávy ÚFAL/CKL.

(Selected conference papers (LREC, ACL etc.), UFAL/CKL technical reports.)

Sylabus -
Poslední úprava: T_UFAL (22.05.2006)

1) Stručný úvod do programovacího jazyka Perl

  • datové struktury v Perlu
  • základní techniky zpracování textových dat
  • Perl Best Practices

2) Lingvistická data ve formátu XML

  • deklarace (DTD,schemata)
  • transformace v jazyku XSL
  • dotazování v jazyku XPath
  • docbook

3) Zpracování dat z PDT 2.0

  • datové formáty použité v PDT
  • dávkové zpracování souborů z PDT 2.0 v prostředí btred/ntred

4) Zpracování dat z dalších jazyků

  • konverze lingvistických zdrojů z jiných formátů/formalismů/jazyků (včetně jazyků typologicky vzdálených)
  • vzájemný převod složkové a závislostní orientovaných struktur
  • extrémní vývoj syntakticky značkovaných dat pro jazyky bez existujících treebanků

5) Vyhodnocování experimentů

  • precision/recall v morfologickém a syntaktickém značkování
  • 10-fold cross evaluation, testy signifikance
  • BLEU score