Segmentace textu na tématické pasáže
Thesis title in Czech: | Segmentace textu na tématické pasáže |
---|---|
Thesis title in English: | Topical text segmentation |
Key words: | tématická segmentaci, řízené a neřízené metody |
English key words: | topic segmentation, supervised and unsupervised methoods |
Academic year of topic announcement: | 2014/2015 |
Thesis type: | diploma thesis |
Thesis language: | |
Department: | Institute of Formal and Applied Linguistics (32-UFAL) |
Supervisor: | doc. RNDr. Pavel Pecina, Ph.D. |
Author: |
Guidelines |
U delších textových dokumentů lze předpokládat, že pojednávají o více tématech. Pokud budeme navíc předpokládat, že v jednom okamžiku (na konkrétní pozici) je aktuální právě jedno téma, lze definovat úlohu tématické segmentace textu na jako hledání bodů v textu, kde se téma mění. Základním rysem při změně tématu je především změnou aktuálně používaného slovníku, lze ale využít i mnoho dalších znaků.
Témata mohou, ale nemusí, být specifikována předem, což ovlivňuje výběr metod, které lze pro řešení použít. Neřízené (unsupervised) metody se používají v případě, kdy témata nejsou nijak specifikována, cílem je potom identifikovat místa v textu, kdy dochází k signifikantní změně ve slovní zásobě (přestanou se opakovat slova, která jsou pro specifické téma charakteristická). Řízené (supervised) metody předpokládají předem daná témata (a jejich popis, například formou výčtu klíčových slov) a hledají začátky a konce pasáží, kde se tato slova vyskytují. Cílem diplomové práce je návrh, implementace a otestování vlastní metody vycházející ze současných postupů. Výsledný nástroj musí být navržený a implementovaný obecně, tak aby umožňoval zpracování např. i automatických přepisů audio dat apod. |
References |
Marti A. Hearst. TextTiling: segmenting text into multi-paragraph subtopic passages. In Journal Computational Linguistics archive. Volume 23 Issue 1, pages 33-64. 1997.
Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008. |