Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Segmentace textu na tématické pasáže
Název práce v češtině: Segmentace textu na tématické pasáže
Název v anglickém jazyce: Topical text segmentation
Klíčová slova: tématická segmentaci, řízené a neřízené metody
Klíčová slova anglicky: topic segmentation, supervised and unsupervised methoods
Akademický rok vypsání: 2014/2015
Typ práce: diplomová práce
Jazyk práce:
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:
Zásady pro vypracování
U delších textových dokumentů lze předpokládat, že pojednávají o více tématech. Pokud budeme navíc předpokládat, že v jednom okamžiku (na konkrétní pozici) je aktuální právě jedno téma, lze definovat úlohu tématické segmentace textu na jako hledání bodů v textu, kde se téma mění. Základním rysem při změně tématu je především změnou aktuálně používaného slovníku, lze ale využít i mnoho dalších znaků.

Témata mohou, ale nemusí, být specifikována předem, což ovlivňuje výběr metod, které lze pro řešení použít. Neřízené (unsupervised) metody se používají v případě, kdy témata nejsou nijak specifikována, cílem je potom identifikovat místa v textu, kdy dochází k signifikantní změně ve slovní zásobě (přestanou se opakovat slova, která jsou pro specifické téma charakteristická). Řízené (supervised) metody předpokládají předem daná témata (a jejich popis, například formou výčtu klíčových slov) a hledají začátky a konce pasáží, kde se tato slova vyskytují.

Cílem diplomové práce je návrh, implementace a otestování vlastní metody vycházející ze současných postupů. Výsledný nástroj musí být navržený a implementovaný obecně, tak aby umožňoval zpracování např. i automatických přepisů audio dat apod.
Seznam odborné literatury
Marti A. Hearst. TextTiling: segmenting text into multi-paragraph subtopic passages. In Journal Computational Linguistics archive. Volume 23 Issue 1, pages 33-64. 1997.

Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008.
 
Univerzita Karlova | Informační systém UK