The goal of the course is to provide students with the survey of the field of Language Data Resources. Selected types of linguistic annotations will be described, with
emphasis on annotating corpus data and lexical data. Students will gain practice in using software tools for processing such data, especially in the programming language
Python. Leading projects for English, Czech, and some other languages will be used for illustration.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)
Cílem přednášky je poskytnout studentům přehled o současném dění a trendech v oblasti Language Data Resources. Budou popsány vybrané typy anotací nad daty korpusové a
slovníkové povahy a bude procvičeno zpracování takových dat pomocí softwarových nástrojů, a to zejména v programovacím jazyce Python. Jednotlivé typy anotací a možnosti jejich
využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)
Course completion requirements -
To pass the course, you need to get at least 50% of the total points from the written test and submit all homework assignments.
Your grade is based on the average of your performance; the test and the homework assignments are weighted 1:1. The final grade is assigned according to the following table:
1: ≥ 90%
2: ≥ 70%
3: ≥ 50%
4: < 50%
For example, if you get 600 out of 1000 points for homework assignments (60%) and 36 out of 40 points for the test (90%), your total performance is 75% and you get a 2.
For details, see https://ufal.mff.cuni.cz/courses/npfl070#grading
Last update: Popel Martin, Mgr., Ph.D. (12.06.2019)
Pro získání klasifikovaného zápočtu je potřeba dosáhnout alespoň 50% z celkového počtu bodů z písemného testu a odevzdat všechny domácí úkoly.
Výsledná známka je založena na neváženém průměru výsledků písemného testu a domácích úkolů, podle následující tabulky:
1: ≥ 90%
2: ≥ 70%
3: ≥ 50%
4: < 50%
Pokud například získáte 600 z 1000 bodů za domácí úkoly (60%) a 36 ze 40 bodů za test (90%), vaše celkové skóre je 75% a výsledná známka 2.
Podrobnosti naleznete na https://ufal.mff.cuni.cz/courses/npfl070#grading
Last update: Popel Martin, Mgr., Ph.D. (12.06.2019)
Literature -
Selected papers from related conferences (e.g. LREC, ACL) and journals (e.g. LRE)
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)
Články z vybraných konferencí (např. LREC, ACL) a časopisů (např. LRE)
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)
Syllabus -
1. Introduction
motivation for building language data resources
typology of language data, usage
principles of annotation
using annotated data for evaluation in Natural Language Processing tasks
2. Corpora
corpus typology, tag sets
example corpora, Czech National Corpus
parallel corpora
searching in corpora
3. Treebanks
constituency and dependency syntactic structures, convertibility
deep syntactic trees
treebank examples
4. Computer lexicography
types of lexical information
examples of lexical data (inflectional and derivational lexicons, wordnets, valency lexicons, translation lexicons etc.)
5. Other types of language data resources
named entity corpora, sentiment corpora, dialog corpora, etc.
6. Authors’ rights perspective on building language data resources; licenses
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)
1. Úvod
motivace pro vytváření lingvisticky anotovaných dat, podstata anotování
klasifikace jazykových dat, možnosti využití
využití dat pro evaluaci úspěšnosti úloh zpracování přirozeného jazyka
2. Korpusy
typologie korpusů, sady značek
příklady korpusů, Český národní korpus
paralelní korpusy
vyhledávání v korpusech
3. Treebanky
složkové a závislostní syntaktické struktury, převoditelnost
hloubkové syntaktické stromy
příklady treebanků
4. Počítačová lexikografie
typy lexikální informace
příklady lexikálních dat (flektivní a derivační slovníky, wordnety, valenční slovníky, překladové slovníky apod.)
5. Další typy jazykových dat
korpusy s anotací pojmenovaných entit, sentimentu, dialogových aktů atd.
6. Tvorba datových zdrojů z pohledu autorských práv, licence
Last update: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)