Zdroje jazykových dat - NPFX070
Anglický název: Language Data Resources
Zajišťuje: Studijní oddělení (32-STUD)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2022
Semestr: zimní
E-Kredity: 5
Rozsah, examinace: zimní s.:1/2, KZ [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Je zajišťováno předmětem: NPFL070
Garant: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Mgr. Martin Popel, Ph.D.
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Prerekvizity : {NXXX011, NXXX012, NXXX013, NXXX070, NXXX071}
Neslučitelnost : NPFL070
Záměnnost : NPFL070
Výsledky anket   Termíny zkoušek   Rozvrh ZS   Nástěnka   
Anotace -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
Cílem přednášky je poskytnout studentům přehled o současném dění a trendech v oblasti Language Data Resources. Budou popsány vybrané typy anotací nad daty korpusové a slovníkové povahy a bude procvičeno zpracování takových dat pomocí softwarových nástrojů, a to zejména v programovacím jazyce Python. Jednotlivé typy anotací a možnosti jejich využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Martin Popel, Ph.D. (12.06.2019)

Pro získání klasifikovaného zápočtu je potřeba dosáhnout alespoň 50% z celkového počtu bodů z písemného testu a odevzdat všechny domácí úkoly.

Výsledná známka je založena na neváženém průměru výsledků písemného testu a domácích úkolů, podle následující tabulky:

1: ≥ 90%

2: ≥ 70%

3: ≥ 50%

4: < 50%

Pokud například získáte 600 z 1000 bodů za domácí úkoly (60%) a 36 ze 40 bodů za test (90%), vaše celkové skóre je 75% a výsledná známka 2.

Podrobnosti naleznete na https://ufal.mff.cuni.cz/courses/npfl070#grading

Literatura -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
  • Články z vybraných konferencí (např. LREC, ACL) a časopisů (např. LRE)

Sylabus -
Poslední úprava: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

1. Úvod

  • motivace pro vytváření lingvisticky anotovaných dat, podstata anotování
  • klasifikace jazykových dat, možnosti využití
  • využití dat pro evaluaci úspěšnosti úloh zpracování přirozeného jazyka

2. Korpusy

  • typologie korpusů, sady značek
  • příklady korpusů, Český národní korpus
  • paralelní korpusy
  • vyhledávání v korpusech

3. Treebanky

  • složkové a závislostní syntaktické struktury, převoditelnost
  • hloubkové syntaktické stromy
  • příklady treebanků

4. Počítačová lexikografie

  • typy lexikální informace
  • příklady lexikálních dat (flektivní a derivační slovníky, wordnety, valenční slovníky, překladové slovníky apod.)

5. Další typy jazykových dat

  • korpusy s anotací pojmenovaných entit, sentimentu, dialogových aktů atd.

6. Tvorba datových zdrojů z pohledu autorských práv, licence