PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Jazykové technologie a počítačová lingvistika - NSZI071 (Informatika nMgr. - Jazykové technologie a počítačová lingvistika)
Anglický název: Language Technologies and Computational Linguistics
Zajišťuje: Studijní oddělení (32-STUD)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2021
Semestr: oba
E-Kredity: 0
Rozsah, examinace: 0/0, SZ [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština
Způsob výuky: prezenční
Způsob výuky: prezenční
Poznámka: student může plnit i v dalších letech
za splnění nejsou body
předmět lze zapsat v ZS i LS
Pořadí Název předmětu
Tématický okruh 1 (TO1) z nabídky 1
1 Základy počítačového zpracování přirozeného jazyka
Tématický okruh 2 (TO2) z nabídky min:1, max:2
2 Lingvistické teorie a formalismy (povinný okruh pro zaměření počítačová a formální lingvistika)
3 Statistické metody a strojové učení v počítačové lingvistice (povinný okruh pro zaměření Statistické metody a metody strojového učení pro zpracování jazyka)
Tématický okruh 3 (TO3)
4 Zpracování řeči, dialogové systémy a multimodální systémy (volitelný okruh)
5 Aplikace metod zpracování přirozeného jazyka (volitelný okruh)
Požadavky ke zkoušce
Poslední úprava: Mgr. Dina Novotná Obeidová (14.07.2022)

Státní závěrečná zkouška

Program Jazykové technologie a~počítačová lingvistika má jeden společný povinný okruh pro obě zaměření (Základy počítačového zpracování přirozeného jazyka), jeden povinný okruh dle zvoleného zaměření (Lingvistické teorie a formalismy, nebo Statistické metody a strojové učení v počítačové lingvistice) a~jeden okruh si student vybírá z~volitelných okruhů (Zpracování řeči, dialogové systémy a multimodální systémy, nebo Aplikace metod zpracování přirozeného jazyka). Jako tento poslední okruh si student může zvolit také povinný okruh druhého zaměření tohoto programu.

Zkušební požadavky

1. Základy počítačového zpracování přirozeného jazyka

Fonetika, fonologie, morfologie, syntax, sémantika, pragmatika. Ambiguita, arbitrárnost. Deskripce vs. preskripce. Diachronní vs. synchronní popis jazyka. Základní pojmy z~teorie informace. Markovovy modely. Jazykové modely a~vyhlazování. Třídy slov. Anotované korpusy. Návrh a~vyhodnocení lingvistických experimentů, evaluační metriky. Morfologické značkování a~syntaktická analýza. Přehled základních klasifikačních a~regresních algoritmů.

2. Lingvistické teorie a~formalismy

Funkční generativní popis. Pražský závislostní korpus. Universal Dependencies. Další gramatické formalismy - přehled a~základní charakteristika. Fonetika, fonologie. Komputační morfologie. Povrchová a~hloubková stavba věty; valence. Počítačová lexikografie. Aktuální členění věty; informační struktura, diskurz. Koreference. Typologie jazyků. Formální gramatiky a~jejich využití v~pravidlové morfologii. Parsing.

3. Statistické metody a~strojové učení v~počítačové lingvistice

Generativní a~diskriminativní modely. Metody řízeného učení pro klasifikaci a~regresi (lineární modely, ostatní metody: naive Bayes, rozhodovací stromy, učení založené na příkladech, SVM a~kernely, logistická regrese). Metody neřízeného učení. Jazykové modely a~modely kanálu. Vyhlazování modelů, kombinace modelů. HMM, trellis, Viterbi, Baum-Welch. Algoritmy pro statistický tagging. Algoritmy pro složkový a~závislostní statistický parsing. Strojové učení s~využitím neuronových sítí. Konvoluční a~rekurentní sítě. Slovní embeddingy.

4. Zpracování řeči, dialogové systémy a~multimodální systémy

Základy tvoření a~vnímání mluvené řeči. Metody zpracování řečového signálu. Modelování akustiky fonémů pomocí HMM. Implementace Baum-Welch a~Viterbi algoritmu pro rozpoznávání řeči. Neuronové modely řeči. Metody syntézy řeči. Řečové aplikace. Základní komponenty dialogového systému. Porozumění jazyku v~dialogových systémech. Sledování dialogového stavu. Metody řízení dialogu. End-to-end neuronové dialogové systémy. Architektury pro dialogové systémy v~otevřené doméně. Generování přirozeného jazyka. Evaluace dialogových systémů. Vizuální dialog a~multimodální systémy.

5. Aplikace metod zpracování přirozeného jazyka

Kontrola překlepů, kontrola gramatické správnosti. Strojový překlad. Počítačem podporovaný překlad. Statistické metody ve strojovém překladu. Vyhodnocování kvality překladu. Strojový překlad mluvené řeči. Vyhledávání informací, vyhledávací modely. Rozšiřování dotazů a~relevance feedback. Shlukování dokumentů. Hledání duplicit a~detekce plagiátorství. Evaluace vyhledávání informací. Postojová analýza (sentiment analysis). Soubory nástrojů (GATE, NLTK, NLPTools, Lucene, Terrier).

 
Univerzita Karlova | Informační systém UK