Thesis (Selection of subject)Thesis (Selection of subject)(version: 390)
Thesis details
   Login via CAS
Dolování prostého textu z webových stránek
Thesis title in Czech: Dolování prostého textu z webových stránek
Thesis title in English: Plain Text from HTML
Academic year of topic announcement: 2010/2011
Thesis type: school year task
Thesis language:
Department: Institute of Formal and Applied Linguistics (32-UFAL)
Supervisor: doc. RNDr. Ondřej Bojar, Ph.D.
Author:
Guidelines
Téma na ročníkový projekt.

Cílem projektu je implementovat jednoduchý a rychlý nástroj, který v množině již stažených webových stránek identifikuje ty, které obsahují velký podíl prostého textu (textu ve větách) a prostý text extrahuje. Nástroj musí být naprosto jazykově nezávislý a musí hladce řešit i stránky obsahující chyby všeho druhu. Žádoucí je zdrojové texty stránek očistit jak od HTML a případných skriptů, tak od nabídek, hlaviček, patiček a jiných částí opakujících se na mnoha stránkách. Pro weby s reklamou by měl nástoj umožňovat automatickou identifikaci a odstranění reklamy na základě několika verzí téže stránky.
References
Damian Conway: Perl Best Practices. O'Reilly. 2005.
(Ale programovací jazyk můžete zvolit sami.)
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html