Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Subklasifikace českých adverbií na základě automatického zpracování velkých dat

Název práce v češtině:	Subklasifikace českých adverbií na základě automatického zpracování velkých dat
Název v anglickém jazyce:	Subclasification of Czech adverbs based on large data processing
Akademický rok vypsání:	2007/2008
Typ práce:	diplomová práce
Jazyk práce:
Ústav:	Ústav formální a aplikované lingvistiky (32-UFAL)
Vedoucí / školitel:	RNDr. Johanka Spoustová, Ph.D.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	22.12.2007
Datum zadání:	22.12.2007

Zásady pro vypracování

Cílem práce je navrhnout systém podrobnějšího roztřídění českých adverbií a automaticky nebo poloautomaticky do něj přiřadit pokud možno všechna adverbia (nebo co nejvíce z nich) ze slovníku české morfologie. V ideálním případě by užití tohoto rozšíření mělo napomoci nástrojům pro automatické zpracování textu (taggerům, parserům apod.), tedy vylepšit jejich úspěšnost, není to však podmínka nutná. V každém případě je však třeba tuto otázku zodpovědět a podložit řádně vyhodnocenými experimenty.

Obě úlohy budou řešeny primárně na základě automatického zpracování velkých dat statistickými metodami (clustering apod.). Lze využít menší množství ručně anotovaných dat (PDT), rozsáhlá data Českého národního korpusu opatřená morfologickým značkováním, případně i neoznačkovaná data libovolného původu, např. z webu.

Řešitel by měl svou subklasifikaci adverbií porovnat z existujícími návrhy z oblasti teoretické lingvistiky.

Samotné přiřazení adverbií do kategorií bude realizováno buď formou úpravy stávajícího morfologického analyzátoru a slovníku, nebo formou samostatného programu navazujícího na morfologickou analýzu.

Seznam odborné literatury

Hajič, Jan: Disambiguation of Rich Inflection. (Computational Morphology of Czech). Karolinum, Prague 2001.

Havránek - Jedlička: Česká mluvnice. SPN 1981

Prague Dependency Treebank 2.0 http://ufal.mff.cuni.cz/pdt20

Český národní korpus http://ucnk.ff.cuni.cz