Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Sledování aktivovanosti objektů v textech

Název práce v češtině:	Sledování aktivovanosti objektů v textech
Název v anglickém jazyce:	Tracing salience in texts
Klíčová slova:	diskurz, aktivovanost, strojové učení
Klíčová slova anglicky:	discourse, salience, machine learning
Akademický rok vypsání:	2012/2013
Typ práce:	diplomová práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. Mgr. Barbora Vidová Hladká, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	22.10.2012
Datum zadání:	29.10.2012
Datum potvrzení stud. oddělením:	21.11.2012
Datum a čas obhajoby:	26.05.2014 00:00
Datum odevzdání elektronické podoby:	11.04.2014
Datum odevzdání tištěné podoby:	11.04.2014
Datum proběhlé obhajoby:	26.05.2014
Oponenti:	Mgr. Michal Novák, Ph.D.

Zásady pro vypracování

Při analýze promluvy (diskurzu) se pracuje s tzv. stupněm aktivovanosti objektů, o kterých se mluví/píše. Volně řečeno, mluvčí/pisatel o něčem začne mluvit/psát, pak přejde k jinému tématu (objektu), následně se vrátí k tématu (objektu), o kterém hovořil/psal na začátku, ... To, jak "moc", nebo "málo" se o daném objektu hovoří napříč dokumentem, je předmětem sledování aktivovanosti. Příklady aplikací, které mohou aktivovanost využít, je sumarizace obsahu, segmentace textu, detekce hlavního tématu.

Prvotní návrh algoritmu pro sledování aktivovanosti byl již implementován, včetně vizualizace (Hajičová, Hladká, Kučová, 2006). Algoritmus je procedurální a byl testován na malém vzorku dat nezávisle na aplikaci, které by mohl být přímou součástí.

Cíle diplomové práce:

1, revidovat implementovaný algoritmus,
2, seznámit se s anotací rozšířené textové koreference (Nedolushko, 2009),
3, sledovat a vizualizovat aktivovanost na kompletním PDT 2.0,
4, intepretovat grafy aktivovanosti,
5, aplikovat strojového učení na sledování aktivovanosti,
6, uplatnit znalost aktivovanosti v nějaké další úloze NLP (Barzilay, Lapata, 2008; Kessler et al., 2012).

Seznam odborné literatury

Barzilay Regina, Mirella Lapata. Modeling Local Coherence: An Entity-Based Approach. Computational Linguistics March 2008, Vol. 34, No. 1: 1–34.

Hajičová Eva, Barbora Hladká, Lucie Kučová. An Annotated Corpus as a Test Bed for Discourse Structure Analysis. In Proceedings of the Workshop on Constraints in Discourse, National University of Ireland, Maynooth, Ireland, pp. 82-89, 2006.

Kessler Rémy et al. Finding Salient Dates for Builidng Thematic Timelines. In Proceedings of the 50th ACL, Jeju, Republic of Korea, pp. 730-739, 2012.

Nedoluzhko Anna, Jiří Mírovský, Radek Ocelák, Jiří Pergler. Extended coreferential relations and bridging anaphora in the Prague Dependency Treebank. In Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium, Goa, India, pp. 1-16, 2009.

Pražský závislostní korpus 2.0. http://ufal.mff.cuni.cz/pdt2.0.