PředmětyPředměty(verze: 845)
Předmět, akademický rok 2018/2019
   Přihlásit přes CAS
Pražský závislostní korpus - NPFL075
Anglický název: Prague Dependency Treebank
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2018 do 2018
Semestr: letní
E-Kredity: 6
Rozsah, examinace: letní s.:2/2 Z+Zk [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Garant: doc. RNDr. Markéta Lopatková, Ph.D.
RNDr. Jiří Mírovský, Ph.D.
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)
Cílem předmětu je seznámit studenty s projektem Pražského závislostního korpusu (PDT 2.0) počínaje jeho teoretickými východisky, přes jednotlivé roviny anotace a konče způsobem zachycení důležitých jazykových jevů. Důraz je kladen též na anotační schémata a formát dat, na seznámení s používanými nástroji a na praktické zvládnutí práce s korpusem. Předmět je určen studentům nejrůznějšího zaměření (informatika, aplikovaná lingvistika).
Podmínky zakončení předmětu -
Poslední úprava: doc. RNDr. Markéta Lopatková, Ph.D. (10.06.2019)

Předmět je zakončen písemným testem, který obsahuje otázky z témat podle sylabu, s možným ústním dozkoušením - k úspěšnému absolvování student musí získat alespoň 50% bodů. Získání zápočtu je podmíněno vypracováním všech domácích úkolů (zápočet není nutno získat před písemným testem). Podrobnější požadavky jsou uvedeny na stránkách předmětu http://ufal.mff.cuni.cz/courses/npfl075

Literatura -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)

Hajičová, E., Panevová, J., Sgall, P. (2002) Úvod do teoretické a počítačové lingvistiky, sv. I. Karolinum, Praha

Hajičová, E., Abeillé, A., Hajič, J., Mírovský, J., Urešová, Z. (2010) Treebank Annotation. Chapter in (eds. Indurkhya, N., Damerau, f.j.) Handbook of Natural Language Processing, Second Edition, CRC Press, Taylor and Francis Group, Boca Raton, pp. 167-188,

Hajič, J. (2014) Disambiguation of Rich Inflection (Computational Morphology of Czech). Karolinum, Charles Univeristy Press, Prague, see also https://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf

https://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html

Anotace na analytické rovině. Návod pro anotátory. Technická zpráva ÚFAL TR-1997-03, Universita Karlova, 1997

see also http://ufal.ms.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html

Mikulová, M., Bémová, A., Hajič, J., Hajičová, E., Havelka, J., Kolářová, V., Kučová, L.e, Lopatková, M., Pajas, P., Panevová, J., Ševčíková, M., Sgall, P., Štěpánek, J., Urešová, Z., Veselá, K., Žabokrtský, Z. (2007) Annotation on the tectogrammatical level in the Prague Dependency Treebank. Reference Version. Technical report no. 2007/3.1, ÚFAL, Charles Universit, see also http://ufal.ms.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/html/index.html

PDT Guide - http://ufal.ms.mff.cuni.cz/pdt2.0/doc/pdt-guide/html/index.html

Nivre, J., de Marneffe, M.C., Ginter, F., Goldberg, Y., Hajič, ., Manning, C., McDonald, R., Petrov, S., Pyysalo, S.,

Silveira, N., Tsarfaty, R., Zeman, D. (2006) Universal Dependencies v1: A Multilingual Treebank Collection. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC 2016), ELRA, Paris, pp. 1659-1666

Universal Dependencies v2, see http://universaldependencies.org/

Sylabus -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (29.01.2019)

1. Teoretické základy - Funkční generativní popis (systém rovin, vztah kompozice a vztah formy a funkce, závislostní a "nezávislostní" vztahy).

2. Morfologická rovina (tokenizace, lema, tag).

3. Analytická rovina (závislostní strom, analytická funkce, slovosled a projektivita).

4. Tektogramatická rovina (struktura, funktory, t-lema, valence, gramatémy, elipsy, koreference, reflexivita, aktuální členění, vlastní jména, přímá řeč).

5. Universal Dependencies

6. Anotační schéma; formát dat (XML).

7. Používané nástroje (xsh, TrEd, PML-TQ).

 
Univerzita Karlova | Informační systém UK