Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Automatické čištění HTML dokumentů
Název práce v češtině: Automatické čištění HTML dokumentů
Název v anglickém jazyce: HTML document cleaning
Akademický rok vypsání: 2006/2007
Typ práce: bakalářská práce
Jazyk práce: angličtina
Ústav: Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel: doc. RNDr. Pavel Pecina, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 08.11.2006
Datum zadání: 08.11.2006
Datum a čas obhajoby: 11.09.2007 00:00
Datum odevzdání elektronické podoby:11.09.2007
Datum proběhlé obhajoby: 11.09.2007
Oponenti: Mgr. Bc. Pavel Straňák, Ph.D.
 
 
 
Zásady pro vypracování
Možnost využití textů publikovaných na internetu jako obrovského korpusu je velice lákavá. Objem takto dostupných dat je s velikostí klasických korpusů nesrovnatelný a pro čím dál tím populárnější metody založené na "unsupervised learningu" tak nesmírně cenný. Úskalím je však nutnost čištění těchto dat, tedy odstraňování částí, které netvoří vlastní obsah stránek (hlavičky, patičky, reklamy, atp.). Cílem projektu je aplikovat na tento problém metody strojového učení (tentokrát "supervised") a vytvořit programový nástroj, který bude čištění provádět automaticky.
Seznam odborné literatury
Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze
The MIT Press, 1999
 
Univerzita Karlova | Informační systém UK