PředmětyPředměty(verze: 804)
Předmět, akademický rok 2017/2018
   Přihlásit přes CAS
Pražský závislostní korpus - NPFL075
Anglický název: Prague Dependency Treebank
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2014
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Garant: doc. RNDr. Markéta Lopatková, Ph.D.
RNDr. Jiří Mírovský, Ph.D.
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: T_UFAL (10.05.2010)

Cílem předmětu je seznámit studenty s projektem Pražského závislostního korpusu (PDT 2.0) počínaje jeho teoretickými východisky, přes jednotlivé roviny anotace a konče způsobem zachycení důležitých jazykových jevů. Důraz je kladen též na anotační schémata a formát dat, na seznámení s používanými nástroji a na praktické zvládnutí práce s korpusem. Předmět je určen studentům nejrůznějšího zaměření (informatika, aplikovaná lingvistika).
Literatura -
Poslední úprava: T_UFAL (05.05.2017)

Hajičová, E., Panevová, J., Sgall, P. (2002) Úvod do teoretické a počítačové lingvistiky, sv. I. Karolinum, Praha

Hajičová, E., Abeillé, A., Hajič, J., Mírovský, J., Urešová, Z. (2010) Treebank Annotation. Chapter in (eds. Indurkhya, N., Damerau, f.j.) Handbook of Natural Language Processing, Second Edition, CRC Press, Taylor and Francis Group, Boca Raton, pp. 167-188,

Hajič, J. (2014) Disambiguation of Rich Inflection (Computational Morphology of Czech). Karolinum, Charles Univeristy Press, Prague, see also https://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf

https://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html

Anotace na analytické rovině. Návod pro anotátory. Technická zpráva ÚFAL TR-1997-03, Universita Karlova, 1997

see also http://ufal.ms.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html

Mikulová, M., Bémová, A., Hajič, J., Hajičová, E., Havelka, J., Kolářová, V., Kučová, L.e, Lopatková, M., Pajas, P., Panevová, J., Ševčíková, M., Sgall, P., Štěpánek, J., Urešová, Z., Veselá, K., Žabokrtský, Z. (2007) Annotation on the tectogrammatical level in the Prague Dependency Treebank. Reference Version. Technical report no. 2007/3.1, ÚFAL, Charles Universit, see also http://ufal.ms.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/html/index.html

PDT Guide - http://ufal.ms.mff.cuni.cz/pdt2.0/doc/pdt-guide/html/index.html

Nivre, J., de Marneffe, M.C., Ginter, F., Goldberg, Y., Hajič, ., Manning, C., McDonald, R., Petrov, S., Pyysalo, S.,

Silveira, N., Tsarfaty, R., Zeman, D. (2006) Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), ELRA, Paris, pp. 1659-1666

Universal Dependencies v2, see http://universaldependencies.org/

Sylabus -
Poslední úprava: T_UFAL (04.05.2017)

1. Teoretické základy - Funkční generativní popis (systém rovin, vztah kompozice a vztah formy a funkce, závislostní a "nezávislostní" vztahy).

2. Morfologická rovina (tokenizace, lema, tag).

3. Analytická rovina (závislostní strom, analytická funkce, slovosled a projektivita).

4. Tektogramatická rovina (struktura, funktory, t-lema, valence, gramatémy, elipsy, koreference, reflexivita, aktuální členění, vlastní jména, přímá řeč).

5. Universal Dependencies

6. Anotační schéma; formát dat (XML).

7. Používané nástroje (xsh, TrEd, PML-TQ).

 
Univerzita Karlova | Informační systém UK