PředmětyPředměty(verze: 804)
Předmět, akademický rok 2017/2018
   Přihlásit přes CAS
Zdroje lingvistických dat - NPFL070
Anglický název: Language Data Resources
Zajišťuje: Ústav formální a aplikované lingvistiky (32-UFAL)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2014
Semestr: letní
E-Kredity: 5
Rozsah, examinace: letní s.:1/2 KZ [hodiny/týden]
Počet míst: neomezen
Minimální obsazenost: neomezen
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Garant: doc. Ing. Zdeněk Žabokrtský, Ph.D.
Mgr. Martin Popel
Třída: Informatika Mgr. - Matematická lingvistika
Kategorizace předmětu: Informatika > Počítačová a formální lingvistika
Anotace -
Poslední úprava: JUDr. Dana Macharová (07.10.2008)

Cílem přednášky je poskytnout studentům vyšších ročníků a postgraduálním studentům přehled o současném dění a trendech v oblasti Language Resources. Budou popsány vybrané typy anotací nad daty textové povahy (morfologické kategorie, složkové a závislostní syntaktické struktury, anafora, discourse structure, word-sense disambiguation, parallel-text alignment atd.) a lexikální povahy (wordnety, překladové slovníky, valenční slovníky atd.). Jednotlivé typy anotací a možnosti jejich využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.
Literatura
Poslední úprava: T_UFAL (21.05.2004)

Vybrané články z konferencí (LREC,ACL atd.), technické zprávy ÚFAL/CKL.

(Selected conference papers (LREC,ACL etc.), UFAL/CKL technical reports.)

Sylabus -
Poslední úprava: T_UFAL (21.05.2004)

1. Úvod

  • motivace pro vytváření lingvisticky anotovaných dat
  • podstata anotování
  • klasifikace lingvistických dat, možnosti využití
  • technické prostředky, kódování, datové formáty

2. Korpusy

  • typologie korpusů, sady značek
  • Brown Corpus, Český národní korpus
  • vyhledávání v korpusech

3. Treebanky

  • složkové a závislostní struktury a otázka jejich převoditelnosti
  • Penn Treebank, Pražský závislostní korpus, Negra/Tiger
  • vyhledávání v treebancích

4. Počítačová lexikografie

  • typy lexikální informace
  • machine readable/tractable dictionaries
  • wordnety, valenční slovníky, překladové slovníky
  • Princeton Wordnet, EuroWordNet, FrameNet, PropBank, Vallex
  • dictionary production systems

5. Tektogramatická rovina Pražského závislostního korpusu

  • závislostní strom, typy hran, vnitřní struktura uzlu
  • koreference
  • gramatémy
  • aktuální členění

 
Univerzita Karlova | Informační systém UK