Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Zdroje lingvistických dat - NPFL070

Anglický název:	Language Data Resources
Zajišťuje:	Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2014 do 2017
Semestr:	letní
E-Kredity:	5
Rozsah, examinace:	letní s.:1/2, KZ [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	vyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Způsob výuky:	prezenční

Garant:	doc. Ing. Zdeněk Žabokrtský, Ph.D. Mgr. Martin Popel, Ph.D.
Třída:	Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu:	Informatika > Počítačová a formální lingvistika
Je korekvizitou pro:	NPFL076

Výsledky anket Termíny zkoušek Rozvrh Nástěnka

Anotace -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

Cílem přednášky je poskytnout studentům vyšších ročníků a postgraduálním studentům přehled o současném dění a trendech v oblasti Language Resources. Budou popsány vybrané typy anotací nad daty textové povahy (morfologické kategorie, složkové a závislostní syntaktické struktury, anafora, discourse structure, word-sense disambiguation, parallel-text alignment atd.) a lexikální povahy (wordnety, překladové slovníky, valenční slovníky atd.). Jednotlivé typy anotací a možnosti jejich využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.

Literatura

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

Vybrané články z konferencí (LREC,ACL atd.), technické zprávy ÚFAL/CKL.

(Selected conference papers (LREC,ACL etc.), UFAL/CKL technical reports.)

Sylabus -

Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

1. Úvod

motivace pro vytváření lingvisticky anotovaných dat

podstata anotování

klasifikace lingvistických dat, možnosti využití

technické prostředky, kódování, datové formáty

2. Korpusy

typologie korpusů, sady značek

Brown Corpus, Český národní korpus

vyhledávání v korpusech

3. Treebanky

složkové a závislostní struktury a otázka jejich převoditelnosti

Penn Treebank, Pražský závislostní korpus, Negra/Tiger

vyhledávání v treebancích

4. Počítačová lexikografie

typy lexikální informace

machine readable/tractable dictionaries

wordnety, valenční slovníky, překladové slovníky

Princeton Wordnet, EuroWordNet, FrameNet, PropBank, Vallex

dictionary production systems

5. Tektogramatická rovina Pražského závislostního korpusu

závislostní strom, typy hran, vnitřní struktura uzlu

koreference

gramatémy

aktuální členění