Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Dolování prostého textu z webových stránek

Název práce v češtině:	Dolování prostého textu z webových stránek
Název v anglickém jazyce:	Plain Text from HTML
Akademický rok vypsání:	2010/2011
Typ práce:	ročníková práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Ondřej Bojar, Ph.D.
Řešitel:

Zásady pro vypracování

Téma na ročníkový projekt.

Cílem projektu je implementovat jednoduchý a rychlý nástroj, který v množině již stažených webových stránek identifikuje ty, které obsahují velký podíl prostého textu (textu ve větách) a prostý text extrahuje. Nástroj musí být naprosto jazykově nezávislý a musí hladce řešit i stránky obsahující chyby všeho druhu. Žádoucí je zdrojové texty stránek očistit jak od HTML a případných skriptů, tak od nabídek, hlaviček, patiček a jiných částí opakujících se na mnoha stránkách. Pro weby s reklamou by měl nástoj umožňovat automatickou identifikaci a odstranění reklamy na základě několika verzí téže stránky.

Seznam odborné literatury

Damian Conway: Perl Best Practices. O'Reilly. 2005.
(Ale programovací jazyk můžete zvolit sami.)