Dolování prostého textu z webových stránek
Název práce v češtině: | Dolování prostého textu z webových stránek |
---|---|
Název v anglickém jazyce: | Plain Text from HTML |
Akademický rok vypsání: | 2010/2011 |
Typ práce: | ročníková práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Ondřej Bojar, Ph.D. |
Řešitel: |
Zásady pro vypracování |
Téma na ročníkový projekt.
Cílem projektu je implementovat jednoduchý a rychlý nástroj, který v množině již stažených webových stránek identifikuje ty, které obsahují velký podíl prostého textu (textu ve větách) a prostý text extrahuje. Nástroj musí být naprosto jazykově nezávislý a musí hladce řešit i stránky obsahující chyby všeho druhu. Žádoucí je zdrojové texty stránek očistit jak od HTML a případných skriptů, tak od nabídek, hlaviček, patiček a jiných částí opakujících se na mnoha stránkách. Pro weby s reklamou by měl nástoj umožňovat automatickou identifikaci a odstranění reklamy na základě několika verzí téže stránky. |
Seznam odborné literatury |
Damian Conway: Perl Best Practices. O'Reilly. 2005.
(Ale programovací jazyk můžete zvolit sami.) |