Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Segmentace textu na tématické pasáže
Thesis title in Czech: Segmentace textu na tématické pasáže
Thesis title in English: Topical text segmentation
Key words: tématická segmentaci, řízené a neřízené metody
English key words: topic segmentation, supervised and unsupervised methoods
Academic year of topic announcement: 2014/2015
Thesis type: diploma thesis
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Pavel Pecina, Ph.D.
Author:
Guidelines
U delších textových dokumentů lze předpokládat, že pojednávají o více tématech. Pokud budeme navíc předpokládat, že v jednom okamžiku (na konkrétní pozici) je aktuální právě jedno téma, lze definovat úlohu tématické segmentace textu na jako hledání bodů v textu, kde se téma mění. Základním rysem při změně tématu je především změnou aktuálně používaného slovníku, lze ale využít i mnoho dalších znaků.

Témata mohou, ale nemusí, být specifikována předem, což ovlivňuje výběr metod, které lze pro řešení použít. Neřízené (unsupervised) metody se používají v případě, kdy témata nejsou nijak specifikována, cílem je potom identifikovat místa v textu, kdy dochází k signifikantní změně ve slovní zásobě (přestanou se opakovat slova, která jsou pro specifické téma charakteristická). Řízené (supervised) metody předpokládají předem daná témata (a jejich popis, například formou výčtu klíčových slov) a hledají začátky a konce pasáží, kde se tato slova vyskytují.

Cílem diplomové práce je návrh, implementace a otestování vlastní metody vycházející ze současných postupů. Výsledný nástroj musí být navržený a implementovaný obecně, tak aby umožňoval zpracování např. i automatických přepisů audio dat apod.
References
Marti A. Hearst. TextTiling: segmenting text into multi-paragraph subtopic passages. In Journal Computational Linguistics archive. Volume 23 Issue 1, pages 33-64. 1997.

Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html