PředmětyPředměty(verze: 797)
Předmět, akademický rok 2016/2017
   Přihlásit přes CAS
Pražský závislostní korpus - NPFL075
Anglický název: Prague Dependency Treebank
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2014
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Garant: doc. RNDr. Markéta Lopatková, Ph.D.
RNDr. Jiří Mírovský, Ph.D.
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: T_UFAL (10.05.2010)

Cílem předmětu je seznámit studenty s projektem Pražského závislostního korpusu (PDT 2.0) počínaje jeho teoretickými východisky, přes jednotlivé roviny anotace a konče způsobem zachycení důležitých jazykových jevů. Důraz je kladen též na anotační schémata a formát dat, na seznámení s používanými nástroji a na praktické zvládnutí práce s korpusem. Předmět je určen studentům nejrůznějšího zaměření (informatika, aplikovaná lingvistika).
Literatura -
Poslední úprava: T_UFAL (10.05.2010)

PDT Guide - http://ufal.ms.mff.cuni.cz/pdt2.0/doc/pdt-guide/html/index.html

Hajičová, E., Panevová, J., Sgall, P. (2002) Úvod do teoretické a počítačové lingvistiky, sv. I. Karolinum, Praha.

Jan Hajič: Disambiguation of Rich Inflection (Computational Morphology of Czech). Karolinum, Charles Univeristy Press, Prague, Czech Republic, 2004.

Anotace na analytické rovině. Návod pro anotátory. Technická zpráva ÚFAL TR-1997-03, Universita Karlova, 1997 (http://ufal.ms.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html)

Marie Mikulová, Alevtina Bémová, Jan Hajič, Eva Hajičová, Jiří Havelka, Veronika Kolářová-Řezníčková, Lucie Kučová, Markéta Lopatková, Petr Pajas, Jarmila Panevová, Magda Razímová, Petr Sgall, Jan Štěpánek, Zdeňka Urešová, Kateřina Veselá, Zdeněk Žabokrtský: "Anotace Pražského závislostního korpusu na tektogramatické rovině: pokyny pro anotátory". 2005 (http://ufal.ms.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/html/index.html)

Sylabus -
Poslední úprava: T_UFAL (10.05.2010)

1. Teoretické základy - Funkční generativní popis (systém rovin, vztah kompozice a vztah formy a funkce, závislostní a ?nezávislostní" vztahy).

2. Morfologická rovina (tokenizace, lema, tag).

3. Analytická rovina (závislostní strom, analytická funkce, slovosled a projektivita).

4. Tektogramatická rovina (struktura, funktory, t-lema, valence, gramatémy, elipsy, koreference, reflexivita, aktuální členění, vlastní jména, přímá řeč).

5. Anotační schéma; formát dat (XML).

6. Používané nástroje (xsh, TrEd, PML-TQ).

 
Univerzita Karlova | Informační systém UK