Last update: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.04.2019)
This course is a detailed introduction into the architecture of spoken dialogue systems, voice assistants and
conversational systems (chatbots). We will introduce the main components of dialogue systems (speech
recognition, language understanding, dialogue management, language generation and speech synthesis) and
show alternative approaches to their implementation. The lab sessions will be dedicated to implementing a simple
dialogue system or a selected component.
Last update: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.04.2019)
Předmět představuje podrobný úvod do architektury hlasových dialogových systémů, hlasových asistentů a
konverzačních systémů (chatbotů). Budou představeny základní komponenty dialogových systémů (rozpoznávání
řeči, porozumění, řízení dialogu, generování jazyka a řečová syntéza) i různé přístupy k jejich implementaci.
Cvičení budou zaměřena na vlastní implementaci jednoduchého dialogového systému nebo některé konkrétní
komponenty.
Aim of the course -
Last update: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.04.2019)
The course aims to give a general overview of dialogue systems and explain the basic principles of their inner workings.
Last update: doc. Mgr. Barbora Vidová Hladká, Ph.D. (25.04.2019)
Cílem předmětu je podat všeobecný přehled o dialogových systémech a vysvětlit základní principy fungování jejich jednotlivých komponent.
Course completion requirements -
Last update: Mgr. et Mgr. Ondřej Dušek, Ph.D. (06.05.2019)
Passing the final exam (written test based on the contents of lectures), finishing lab session homeworks (implementation tasks from the field of dialogue systems).
Last update: Mgr. et Mgr. Ondřej Dušek, Ph.D. (06.05.2019)
Složení zkoušky (písemný test založený na odpřednesené látce), plnění zápočtových úkolů na cvičení (implementační úlohy z oblasti dialogových systémů).
Literature -
Last update: Mgr. et Mgr. Ondřej Dušek, Ph.D. (10.05.2022)
Basic: Jurafsky & Martin: Speech & Language processing. 3rd ed. draft (chapter 23-26, especially 24). https://web.stanford.edu/~jurafsky/slp3/
Further reading:
McTear: Conversational AI: Dialogue Systems, Conversational Agents, and Chatbots. Morgan & Claypool 2021.
Jokinen & McTear: Spoken dialogue systems. Morgan & Claypool 2010.
McTear et al.: The Conversational Interface: Talking to Smart Devices. Springer 2016.
Gao et al.: Neural Approaches to Conversational AI: Question Answering, Task-oriented Dialogues and Social Chatbots. now publishers 2019. (arXiv:1809.08267)
Last update: Mgr. et Mgr. Ondřej Dušek, Ph.D. (10.05.2022)
McTear et al.: The Conversational Interface: Talking to Smart Devices. Springer 2016.
Gao et al.: Neural Approaches to Conversational AI: Question Answering, Task-oriented Dialogues and Social Chatbots. now publishers 2019. (arXiv:1809.08267)
Syllabus -
Last update: Mgr. et Mgr. Ondřej Dušek, Ph.D. (10.05.2022)
1. Dialogue systems and artificial intelligence: introduction
dialogue system types (open/closed-domain, task/non-task oriented)
dialogue systems application
basic dialogue system components (text-to-text, speech-to-speech)
knowledge representation in dialogue systems
chatbots, AIML
2. Linguistic basics for dialogue processing
turn-taking, speech acts
conversational implicatures
grounding
coreference, anaphora, deixis
3. Data for dialogue systems, dialogue system evaluation
closed domain: Wizard-of-Oz
open domain: data sources, problems (cleanliness, risks of learning from users)
dialogue success rate
problems of chatbot evaluation
4. Language understanding
Sentence classification
named entity recognition
5. Dialogue state tracking
dialogue representation as an MDP or a POMDP
6. Dialogue management
reinforcement learning
7. Language generation
templates, rules
statistical generation, neural generative models
8. Question answering and voice assistants
Alexa, Google, Siri etc.
Knowledge bases, knowledge graph
9. Dialogue toolkits
intents, slots, entities
Alexa Skills, Google DialogFlow, IBM Watson Assistant
10. Speech recognition
speech signal processing
basic recognition approaches
11. Speech synthesis
phonetics/acoustics: sounds/phonemes, formants
speech synthesis methods
12. Chatbots (open-domain dialogue, chitchat)
rule-based chatbots
information retrieval
generative models
Hybrid systems (Alexa Prize)
Last update: Mgr. et Mgr. Ondřej Dušek, Ph.D. (10.05.2022)
Sylabus
1. Dialogové systémy a umělá inteligence - úvod
druhy dialogových systémů (doména, zaměření na splnění úkolu/konverzaci)
uplatnění dialogových systémů
základní komponenty dialogového systému (textového/hlasového)
reprezentace znalostí v dialogovém systému
chatboty, AIML
2. Lingvistické základy pro zpracování dialogů
turn-taking, řečové akty
konverzační implikatury
grounding
koreference, anafora, deixe
3. Data pro dialogové systémy, evaluace
specifická doména: Wizard-of-Oz
otevřená doména: zdroje dat, problémy (čistota, rizika učení se od uživatelů)
úspěšnost dialogu
problémy evaluace chatbotů
4. Porozumění jazyku
Klasifikace vět
rozpoznání jmených entit
5. Sledování stavu dialogu
reprezentace dialogu jako markovovský (MDP) nebo částečně pozorovatelný markovovský rozhodovací proces (POMDP)
6. Řízení dialogu
využití zpětnovazebního učení
7. Generování jazyka
šablony, pravidla
statistické generování
8. Question answering a hlasoví asistenti
Alexa, Google, Siri etc.
báze a grafy znalostí
9. Dialogové toolkity
intents, slots, entities
Alexa Skills, Google DialogFlow, IBM Watson Assistant