PředmětyPředměty(verze: 845)
Předmět, akademický rok 2018/2019
   Přihlásit přes CAS
Zdroje lingvistických dat - NPFL070
Anglický název: Language Data Resources
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2018 do 2018
Semestr: letní
E-Kredity: 5
Rozsah, examinace: letní s.:1/2 KZ [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Další informace: https://ufal.mff.cuni.cz/courses/npfl070
Garant: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Mgr. Martin Popel, Ph.D.
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)
Cílem přednášky je poskytnout studentům vyšších ročníků a postgraduálním studentům přehled o současném dění a trendech v oblasti Language Resources. Budou popsány vybrané typy anotací nad daty textové povahy (morfologické kategorie, složkové a závislostní syntaktické struktury, anafora, discourse structure, word-sense disambiguation, parallel-text alignment atd.) a lexikální povahy (wordnety, překladové slovníky, valenční slovníky atd.). Jednotlivé typy anotací a možnosti jejich využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.
Podmínky zakončení předmětu -
Poslední úprava: Mgr. Martin Popel, Ph.D. (12.06.2019)

Pro získání klasifikovaného zápočtu je potřeba dosáhnout alespoň 50% z celkového počtu bodů z písemného testu a odevzdat všechny domácí úkoly.

Výsledná známka je založena na neváženém průměru výsledků písemného testu a domácích úkolů, podle následující tabulky:

1: ≥ 90%

2: ≥ 70%

3: ≥ 50%

4: < 50%

Pokud například získáte 600 z 1000 bodů za domácí úkoly (60%) a 36 ze 40 bodů za test (90%), vaše celkové skóre je 75% a výsledná známka 2.

Podrobnosti naleznete na https://ufal.mff.cuni.cz/courses/npfl070#grading

Literatura
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

Vybrané články z konferencí (LREC,ACL atd.), technické zprávy ÚFAL/CKL.

(Selected conference papers (LREC,ACL etc.), UFAL/CKL technical reports.)

Sylabus -
Poslední úprava: Mgr. Barbora Vidová Hladká, Ph.D. (25.01.2019)

1. Úvod

  • motivace pro vytváření lingvisticky anotovaných dat
  • podstata anotování
  • klasifikace lingvistických dat, možnosti využití
  • technické prostředky, kódování, datové formáty

2. Korpusy

  • typologie korpusů, sady značek
  • Brown Corpus, Český národní korpus
  • vyhledávání v korpusech

3. Treebanky

  • složkové a závislostní struktury a otázka jejich převoditelnosti
  • Penn Treebank, Pražský závislostní korpus, Negra/Tiger
  • vyhledávání v treebancích

4. Počítačová lexikografie

  • typy lexikální informace
  • machine readable/tractable dictionaries
  • wordnety, valenční slovníky, překladové slovníky
  • Princeton Wordnet, EuroWordNet, FrameNet, PropBank, Vallex
  • dictionary production systems

5. Tektogramatická rovina Pražského závislostního korpusu

  • závislostní strom, typy hran, vnitřní struktura uzlu
  • koreference
  • gramatémy
  • aktuální členění

 
Univerzita Karlova | Informační systém UK