Předměty

Cílem přednášky je poskytnout studentům přehled o současném dění a trendech v oblasti Language Data Resources. Budou popsány vybrané typy anotací nad daty korpusové a slovníkové povahy a bude procvičeno zpracování takových dat pomocí softwarových nástrojů, a to zejména v programovacím jazyce Python. Jednotlivé typy anotací a možnosti jejich využití budou ilustrovány na předních projektech pro angličtinu, češtinu a některé další jazyky.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)

The goal of the course is to provide students with the survey of the field of Language Data Resources. Selected types of linguistic annotations will be described, with emphasis on annotating corpus data and lexical data. Students will gain practice in using software tools for processing such data, especially in the programming language Python. Leading projects for English, Czech, and some other languages will be used for illustration.

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)

Pro získání klasifikovaného zápočtu je potřeba dosáhnout alespoň 50% z celkového počtu bodů z písemného testu a odevzdat všechny domácí úkoly.

Výsledná známka je založena na neváženém průměru výsledků písemného testu a domácích úkolů, podle následující tabulky:

1: ≥ 90%

2: ≥ 70%

3: ≥ 50%

4: < 50%

Pokud například získáte 600 z 1000 bodů za domácí úkoly (60%) a 36 ze 40 bodů za test (90%), vaše celkové skóre je 75% a výsledná známka 2.

Podrobnosti naleznete na https://ufal.mff.cuni.cz/courses/npfl070#grading

Poslední úprava: Popel Martin, Mgr., Ph.D. (12.06.2019)

To pass the course, you need to get at least 50% of the total points from the written test and submit all homework assignments.

Your grade is based on the average of your performance; the test and the homework assignments are weighted 1:1. The final grade is assigned according to the following table:

1: ≥ 90%

2: ≥ 70%

3: ≥ 50%

4: < 50%

For example, if you get 600 out of 1000 points for homework assignments (60%) and 36 out of 40 points for the test (90%), your total performance is 75% and you get a 2.

For details, see https://ufal.mff.cuni.cz/courses/npfl070#grading

Poslední úprava: Popel Martin, Mgr., Ph.D. (12.06.2019)

Články z vybraných konferencí (např. LREC, ACL) a časopisů (např. LRE)

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)

Selected papers from related conferences (e.g. LREC, ACL) and journals (e.g. LRE)

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)

1. Úvod

motivace pro vytváření lingvisticky anotovaných dat, podstata anotování

klasifikace jazykových dat, možnosti využití

využití dat pro evaluaci úspěšnosti úloh zpracování přirozeného jazyka

2. Korpusy

typologie korpusů, sady značek

příklady korpusů, Český národní korpus

paralelní korpusy

vyhledávání v korpusech

3. Treebanky

složkové a závislostní syntaktické struktury, převoditelnost

hloubkové syntaktické stromy

příklady treebanků

4. Počítačová lexikografie

typy lexikální informace

příklady lexikálních dat (flektivní a derivační slovníky, wordnety, valenční slovníky, překladové slovníky apod.)

5. Další typy jazykových dat

korpusy s anotací pojmenovaných entit, sentimentu, dialogových aktů atd.

6. Tvorba datových zdrojů z pohledu autorských práv, licence

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)

1. Introduction

motivation for building language data resources

typology of language data, usage

principles of annotation

using annotated data for evaluation in Natural Language Processing tasks

2. Corpora

corpus typology, tag sets

example corpora, Czech National Corpus

parallel corpora

searching in corpora

3. Treebanks

constituency and dependency syntactic structures, convertibility

deep syntactic trees

treebank examples

4. Computer lexicography

types of lexical information

examples of lexical data (inflectional and derivational lexicons, wordnets, valency lexicons, translation lexicons etc.)

5. Other types of language data resources

named entity corpora, sentiment corpora, dialog corpora, etc.

6. Authors’ rights perspective on building language data resources; licenses

Poslední úprava: Vidová Hladká Barbora, doc. Mgr., Ph.D. (25.01.2019)