Segmentace textu na tématické pasáže
Název práce v češtině: | Segmentace textu na tématické pasáže |
---|---|
Název v anglickém jazyce: | Topical text segmentation |
Klíčová slova: | tématická segmentaci, řízené a neřízené metody |
Klíčová slova anglicky: | topic segmentation, supervised and unsupervised methoods |
Akademický rok vypsání: | 2014/2015 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: |
Zásady pro vypracování |
U delších textových dokumentů lze předpokládat, že pojednávají o více tématech. Pokud budeme navíc předpokládat, že v jednom okamžiku (na konkrétní pozici) je aktuální právě jedno téma, lze definovat úlohu tématické segmentace textu na jako hledání bodů v textu, kde se téma mění. Základním rysem při změně tématu je především změnou aktuálně používaného slovníku, lze ale využít i mnoho dalších znaků.
Témata mohou, ale nemusí, být specifikována předem, což ovlivňuje výběr metod, které lze pro řešení použít. Neřízené (unsupervised) metody se používají v případě, kdy témata nejsou nijak specifikována, cílem je potom identifikovat místa v textu, kdy dochází k signifikantní změně ve slovní zásobě (přestanou se opakovat slova, která jsou pro specifické téma charakteristická). Řízené (supervised) metody předpokládají předem daná témata (a jejich popis, například formou výčtu klíčových slov) a hledají začátky a konce pasáží, kde se tato slova vyskytují. Cílem diplomové práce je návrh, implementace a otestování vlastní metody vycházející ze současných postupů. Výsledný nástroj musí být navržený a implementovaný obecně, tak aby umožňoval zpracování např. i automatických přepisů audio dat apod. |
Seznam odborné literatury |
Marti A. Hearst. TextTiling: segmenting text into multi-paragraph subtopic passages. In Journal Computational Linguistics archive. Volume 23 Issue 1, pages 33-64. 1997.
Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008. |