Automatické čištění HTML dokumentů
Název práce v češtině: | Automatické čištění HTML dokumentů |
---|---|
Název v anglickém jazyce: | HTML document cleaning |
Akademický rok vypsání: | 2006/2007 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | doc. RNDr. Pavel Pecina, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 08.11.2006 |
Datum zadání: | 08.11.2006 |
Datum a čas obhajoby: | 11.09.2007 00:00 |
Datum odevzdání elektronické podoby: | 11.09.2007 |
Datum proběhlé obhajoby: | 11.09.2007 |
Oponenti: | Mgr. Bc. Pavel Straňák, Ph.D. |
Zásady pro vypracování |
Možnost využití textů publikovaných na internetu jako obrovského korpusu je velice lákavá. Objem takto dostupných dat je s velikostí klasických korpusů nesrovnatelný a pro čím dál tím populárnější metody založené na "unsupervised learningu" tak nesmírně cenný. Úskalím je však nutnost čištění těchto dat, tedy odstraňování částí, které netvoří vlastní obsah stránek (hlavičky, patičky, reklamy, atp.). Cílem projektu je aplikovat na tento problém metody strojového učení (tentokrát "supervised") a vytvořit programový nástroj, který bude čištění provádět automaticky. |
Seznam odborné literatury |
Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze The MIT Press, 1999 |