Subklasifikace českých adverbií na základě automatického zpracování velkých dat
Název práce v češtině: | Subklasifikace českých adverbií na základě automatického zpracování velkých dat |
---|---|
Název v anglickém jazyce: | Subclasification of Czech adverbs based on large data processing |
Akademický rok vypsání: | 2007/2008 |
Typ práce: | diplomová práce |
Jazyk práce: | |
Ústav: | Ústav formální a aplikované lingvistiky (32-UFAL) |
Vedoucí / školitel: | RNDr. Johanka Spoustová, Ph.D. |
Řešitel: | skrytý - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 22.12.2007 |
Datum zadání: | 22.12.2007 |
Zásady pro vypracování |
Cílem práce je navrhnout systém podrobnějšího roztřídění českých adverbií a automaticky nebo poloautomaticky do něj přiřadit pokud možno všechna adverbia (nebo co nejvíce z nich) ze slovníku české morfologie. V ideálním případě by užití tohoto rozšíření mělo napomoci nástrojům pro automatické zpracování textu (taggerům, parserům apod.), tedy vylepšit jejich úspěšnost, není to však podmínka nutná. V každém případě je však třeba tuto otázku zodpovědět a podložit řádně vyhodnocenými experimenty.
Obě úlohy budou řešeny primárně na základě automatického zpracování velkých dat statistickými metodami (clustering apod.). Lze využít menší množství ručně anotovaných dat (PDT), rozsáhlá data Českého národního korpusu opatřená morfologickým značkováním, případně i neoznačkovaná data libovolného původu, např. z webu. Řešitel by měl svou subklasifikaci adverbií porovnat z existujícími návrhy z oblasti teoretické lingvistiky. Samotné přiřazení adverbií do kategorií bude realizováno buď formou úpravy stávajícího morfologického analyzátoru a slovníku, nebo formou samostatného programu navazujícího na morfologickou analýzu. |
Seznam odborné literatury |
Hajič, Jan: Disambiguation of Rich Inflection. (Computational Morphology of Czech). Karolinum, Prague 2001.
Havránek - Jedlička: Česká mluvnice. SPN 1981 Prague Dependency Treebank 2.0 http://ufal.mff.cuni.cz/pdt20 Český národní korpus http://ucnk.ff.cuni.cz |