Sledování aktivovanosti objektů v textech
Thesis title in Czech: | Sledování aktivovanosti objektů v textech |
---|---|
Thesis title in English: | Tracing salience in texts |
Key words: | diskurz, aktivovanost, strojové učení |
English key words: | discourse, salience, machine learning |
Academic year of topic announcement: | 2012/2013 |
Thesis type: | diploma thesis |
Thesis language: | angličtina |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. Mgr. Barbora Vidová Hladká, Ph.D. |
Author: | hidden![]() |
Date of registration: | 22.10.2012 |
Date of assignment: | 29.10.2012 |
Confirmed by Study dept. on: | 21.11.2012 |
Date and time of defence: | 26.05.2014 00:00 |
Date of electronic submission: | 11.04.2014 |
Date of submission of printed version: | 11.04.2014 |
Date of proceeded defence: | 26.05.2014 |
Opponents: | Mgr. Michal Novák, Ph.D. |
Guidelines |
Při analýze promluvy (diskurzu) se pracuje s tzv. stupněm aktivovanosti objektů, o kterých se mluví/píše. Volně řečeno, mluvčí/pisatel o něčem začne mluvit/psát, pak přejde k jinému tématu (objektu), následně se vrátí k tématu (objektu), o kterém hovořil/psal na začátku, ... To, jak "moc", nebo "málo" se o daném objektu hovoří napříč dokumentem, je předmětem sledování aktivovanosti. Příklady aplikací, které mohou aktivovanost využít, je sumarizace obsahu, segmentace textu, detekce hlavního tématu.
Prvotní návrh algoritmu pro sledování aktivovanosti byl již implementován, včetně vizualizace (Hajičová, Hladká, Kučová, 2006). Algoritmus je procedurální a byl testován na malém vzorku dat nezávisle na aplikaci, které by mohl být přímou součástí. Cíle diplomové práce: 1, revidovat implementovaný algoritmus, 2, seznámit se s anotací rozšířené textové koreference (Nedolushko, 2009), 3, sledovat a vizualizovat aktivovanost na kompletním PDT 2.0, 4, intepretovat grafy aktivovanosti, 5, aplikovat strojového učení na sledování aktivovanosti, 6, uplatnit znalost aktivovanosti v nějaké další úloze NLP (Barzilay, Lapata, 2008; Kessler et al., 2012). |
References |
Barzilay Regina, Mirella Lapata. Modeling Local Coherence: An Entity-Based Approach. Computational Linguistics March 2008, Vol. 34, No. 1: 1–34.
Hajičová Eva, Barbora Hladká, Lucie Kučová. An Annotated Corpus as a Test Bed for Discourse Structure Analysis. In Proceedings of the Workshop on Constraints in Discourse, National University of Ireland, Maynooth, Ireland, pp. 82-89, 2006. Kessler Rémy et al. Finding Salient Dates for Builidng Thematic Timelines. In Proceedings of the 50th ACL, Jeju, Republic of Korea, pp. 730-739, 2012. Nedoluzhko Anna, Jiří Mírovský, Radek Ocelák, Jiří Pergler. Extended coreferential relations and bridging anaphora in the Prague Dependency Treebank. In Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium, Goa, India, pp. 1-16, 2009. Pražský závislostní korpus 2.0. http://ufal.mff.cuni.cz/pdt2.0. |