Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Sledování aktivovanosti objektů v textech
Thesis title in Czech: Sledování aktivovanosti objektů v textech
Thesis title in English: Tracing salience in texts
Key words: diskurz, aktivovanost, strojové učení
English key words: discourse, salience, machine learning
Academic year of topic announcement: 2012/2013
Thesis type: diploma thesis
Thesis language: angličtina
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. Mgr. Barbora Vidová Hladká, Ph.D.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 22.10.2012
Date of assignment: 29.10.2012
Confirmed by Study dept. on: 21.11.2012
Date and time of defence: 26.05.2014 00:00
Date of electronic submission:11.04.2014
Date of submission of printed version:11.04.2014
Date of proceeded defence: 26.05.2014
Opponents: Mgr. Michal Novák, Ph.D.
 
 
 
Guidelines
Při analýze promluvy (diskurzu) se pracuje s tzv. stupněm aktivovanosti objektů, o kterých se mluví/píše. Volně řečeno, mluvčí/pisatel o něčem začne mluvit/psát, pak přejde k jinému tématu (objektu), následně se vrátí k tématu (objektu), o kterém hovořil/psal na začátku, ... To, jak "moc", nebo "málo" se o daném objektu hovoří napříč dokumentem, je předmětem sledování aktivovanosti. Příklady aplikací, které mohou aktivovanost využít, je sumarizace obsahu, segmentace textu, detekce hlavního tématu.

Prvotní návrh algoritmu pro sledování aktivovanosti byl již implementován, včetně vizualizace (Hajičová, Hladká, Kučová, 2006). Algoritmus je procedurální a byl testován na malém vzorku dat nezávisle na aplikaci, které by mohl být přímou součástí.

Cíle diplomové práce:

1, revidovat implementovaný algoritmus,
2, seznámit se s anotací rozšířené textové koreference (Nedolushko, 2009),
3, sledovat a vizualizovat aktivovanost na kompletním PDT 2.0,
4, intepretovat grafy aktivovanosti,
5, aplikovat strojového učení na sledování aktivovanosti,
6, uplatnit znalost aktivovanosti v nějaké další úloze NLP (Barzilay, Lapata, 2008; Kessler et al., 2012).
References
Barzilay Regina, Mirella Lapata. Modeling Local Coherence: An Entity-Based Approach. Computational Linguistics March 2008, Vol. 34, No. 1: 1–34.

Hajičová Eva, Barbora Hladká, Lucie Kučová. An Annotated Corpus as a Test Bed for Discourse Structure Analysis. In Proceedings of the Workshop on Constraints in Discourse, National University of Ireland, Maynooth, Ireland, pp. 82-89, 2006.

Kessler Rémy et al. Finding Salient Dates for Builidng Thematic Timelines. In Proceedings of the 50th ACL, Jeju, Republic of Korea, pp. 730-739, 2012.

Nedoluzhko Anna, Jiří Mírovský, Radek Ocelák, Jiří Pergler. Extended coreferential relations and bridging anaphora in the Prague Dependency Treebank. In Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium, Goa, India, pp. 1-16, 2009.

Pražský závislostní korpus 2.0. http://ufal.mff.cuni.cz/pdt2.0.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html