velikost textu

Novel Methods for Natural Language Generation in Spoken Dialogue Systems

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Novel Methods for Natural Language Generation in Spoken Dialogue Systems
Název v češtině:
Nové metody generování promluv v dialogových systémech
Typ:
Disertační práce
Autor:
Mgr. Ondřej Dušek
Školitel:
Ing. Mgr. Filip Jurčíček, Ph.D.
Oponenti:
Ing. Pavel Ircing, Ph.D.
doc. Ing. Zdeněk Žabokrtský, Ph.D.
Id práce:
125183
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav formální a aplikované lingvistiky (32-UFAL)
Program studia:
Informatika (P1801)
Obor studia:
Matematická lingvistika (4I3)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
12. 6. 2017
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Klíčová slova:
generování přirozeného jazyka, dialogové systémy, adaptivita, entrainment v dialogu, vícejazyčnost
Klíčová slova v angličtině:
natural language generation, spoken dialogue systems, adaptivity, dialogue entrainment, multilingualism
Abstrakt:
Název práce: Nové metody generování promluv v dialogových systémech Autor: Ondřej Dušek Katedra: Ústav formální a aplikované lingvistiky Vedoucí práce: Ing. Mgr. Filip Jurčíček, Ph.D., Ústav formální a aplikované lingvistiky Abstrakt: Tato disertační zkoumá nové přístupy ke generování přirozeného jazyka (NLG) v hlasových dialogových systémech, tj. generování odpovědí systému pro uživa- tele. Zaměřuje se přitom na zlepšení adaptivity NLG ve třech ohledech: přeno- sitelnost mezi různými doménami, přenositelnost mezi jazyky a přizpůsobení výstupu uživateli. Ve všech ohledech dosahují naše generátory zlepšení oproti dřívějším pří- stupům: 1) Naše generátory, založené na statistických metodách (prohledávání A* s perceptronovým rerankerem a architektuře rekurentních neuronových sítí sequence-to-sequence), lze natrénovat na datech bez podrobného sémantic- kého zarovnání slov na atributy vstupní reprezentace, což dovoluje jednodušší přetrénování pro nové domény než předchozí přístupy. 2) Generátor založený na neuronových sítích dále rozšiřujeme tak, že při generování bere v potaz kontext dosavadního dialogu (tj. i uživatelův způsob vyjadřování) a vytváří tak výstup přizpůsobený uživateli. 3) Vyhodnocujeme také několik úprav systému založeného na neuronových sítích, které jsou zaměřeny na generování výstupu v morfologicky bohatých jazycích, a ukazujeme zlepšení v generování češtiny. Při našich experimentech navíc porovnáváme různé architektury NLG (tra- diční dvojfázové zpracování s odděleným větným plánovačem a povrchovým realizátorem a integrovaný, jednofázový přístup). Pro trénování generátorů jsme též sestavili a zveřejnili dvě nové datové sady. Klíčová slova: generování přirozeného jazyka, dialogové systémy, adaptivita, entrainment v dialogu, vícejazyčnost
Abstract v angličtině:
Title: Novel Methods for Natural Language Generation in Spoken Dialogue Systems Author: Ondřej Dušek Department: Institute of Formal and Applied Linguistics Supervisor: Ing. Mgr. Filip Jurčíček, Ph.D., Institute of Formal and Applied Linguistics Abstract: This thesis explores novel approaches to natural language generation (NLG) in spoken dialogue systems (i.e., generating system responses to be presented the user), aiming at simplifying adaptivity of NLG in three respects: domain portability, language portability, and user-adaptive outputs. Our generators improve over state-of-the-art in all of them: First, our gen- erators, which are based on statistical methods (A* search with perceptron ranking and sequence-to-sequence recurrent neural network architectures), can be trained on data without fine-grained semantic alignments, thus simplifying the process of retraining the generator for a new domain in comparison to previous approaches. Second, we enhance the neural-network-based gener- ator so that it takes preceding dialogue context into account (i.e., user’s way of speaking), thus producing user-adaptive outputs. Third, we evaluate sev- eral extensions to the neural-network-based generator designed for producing output in morphologically rich languages, showing improvements in Czech generation. In addition, we compare different NLG architectures (a traditional two-step pipeline with separate sentence planning and surface realization steps and a joint, end-to-end approach), and we collect and make freely available two novel training datasets for NLG. Keywords: natural language generation, spoken dialogue systems, adaptivity, dialogue entrainment, multilingualism
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Ondřej Dušek 3.27 MB
Stáhnout Abstrakt v českém jazyce Mgr. Ondřej Dušek 20 kB
Stáhnout Abstrakt anglicky Mgr. Ondřej Dušek 20 kB
Stáhnout Posudek vedoucího Ing. Mgr. Filip Jurčíček, Ph.D. 217 kB
Stáhnout Posudek oponenta Ing. Pavel Ircing, Ph.D. 211 kB
Stáhnout Posudek oponenta doc. Ing. Zdeněk Žabokrtský, Ph.D. 99 kB
Stáhnout Záznam o průběhu obhajoby prof. RNDr. Jan Hajič, Dr. 251 kB