PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Zdroje jazykových dat - NPFL070
Anglický název: Language Data Resources
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: zimní
E-Kredity: 4
Rozsah, examinace: zimní s.:1/2, KZ [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/courses/npfl070
Garant: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Mgr. Martin Popel, Ph.D.
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Je korekvizitou pro: NPFL076
Je neslučitelnost pro: NPFX070
Je záměnnost pro: NPFX070
Anotace -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
Cílem přednášky je poskytnout studentům přehled o současném dění a trendech v oblasti Language Data Resources. Budou popsány vybrané typy anotací nad daty korpusové a slovníkové povahy a bude procvičeno zpracování takových dat pomocí softwarových nástrojů, a to zejména v programovacím jazyce Python. Jednotlivé typy anotací a možnosti jejich využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Martin Popel, Ph.D. (12.06.2019)

Pro získání klasifikovaného zápočtu je potřeba dosáhnout alespoň 50% z celkového počtu bodů z písemného testu a odevzdat všechny domácí úkoly.

Výsledná známka je založena na neváženém průměru výsledků písemného testu a domácích úkolů, podle následující tabulky:

1: ≥ 90%

2: ≥ 70%

3: ≥ 50%

4: < 50%

Pokud například získáte 600 z 1000 bodů za domácí úkoly (60%) a 36 ze 40 bodů za test (90%), vaše celkové skóre je 75% a výsledná známka 2.

Podrobnosti naleznete na https://ufal.mff.cuni.cz/courses/npfl070#grading

Literatura -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
 • Články z vybraných konferencí (např. LREC, ACL) a časopisů (např. LRE)

Sylabus -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

1. Úvod

 • motivace pro vytváření lingvisticky anotovaných dat, podstata anotování
 • klasifikace jazykových dat, možnosti využití
 • využití dat pro evaluaci úspěšnosti úloh zpracování přirozeného jazyka

2. Korpusy

 • typologie korpusů, sady značek
 • příklady korpusů, Český národní korpus
 • paralelní korpusy
 • vyhledávání v korpusech

3. Treebanky

 • složkové a závislostní syntaktické struktury, převoditelnost
 • hloubkové syntaktické stromy
 • příklady treebanků

4. Počítačová lexikografie

 • typy lexikální informace
 • příklady lexikálních dat (flektivní a derivační slovníky, wordnety, valenční slovníky, překladové slovníky apod.)

5. Další typy jazykových dat

 • korpusy s anotací pojmenovaných entit, sentimentu, dialogových aktů atd.

6. Tvorba datových zdrojů z pohledu autorských práv, licence

 
Univerzita Karlova | Informační systém UK