Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Automatické čištění HTML dokumentů

Název práce v češtině:	Automatické čištění HTML dokumentů
Název v anglickém jazyce:	HTML document cleaning
Akademický rok vypsání:	2006/2007
Typ práce:	bakalářská práce
Jazyk práce:	angličtina
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	doc. RNDr. Pavel Pecina, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	08.11.2006
Datum zadání:	08.11.2006
Datum a čas obhajoby:	11.09.2007 00:00
Datum odevzdání elektronické podoby:	11.09.2007
Datum proběhlé obhajoby:	11.09.2007
Oponenti:	Mgr. Bc. Pavel Straňák, Ph.D.

Zásady pro vypracování

Možnost využití textů publikovaných na internetu jako obrovského korpusu je velice lákavá. Objem takto dostupných dat je s velikostí klasických korpusů nesrovnatelný a pro čím dál tím populárnější metody založené na "unsupervised learningu" tak nesmírně cenný. Úskalím je však nutnost čištění těchto dat, tedy odstraňování částí, které netvoří vlastní obsah stránek (hlavičky, patičky, reklamy, atp.). Cílem projektu je aplikovat na tento problém metody strojového učení (tentokrát "supervised") a vytvořit programový nástroj, který bude čištění provádět automaticky.

Seznam odborné literatury

Foundations of Statistical Natural Language Processing
Christopher D. Manning, Hinrich Schutze
The MIT Press, 1999