Témata prací (Výběr práce)

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Semantic annotations

Název práce v češtině:	Sémantické anotace
Název v anglickém jazyce:	Semantic annotations
Klíčová slova:	extrakce informací, sémantický web, klasifikace dokumentů, strojové učení, ontologie
Klíčová slova anglicky:	information extraction, semantic web, document classification, machine learning, ontologies
Akademický rok vypsání:	2007/2008
Typ práce:	disertační práce
Jazyk práce:	angličtina
Ústav:	Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel:	prof. RNDr. Peter Vojtáš, DrSc.
Řešitel:	skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení:	30.10.2007
Datum zadání:	30.10.2007
Datum a čas obhajoby:	24.09.2012 13:00
Datum odevzdání elektronické podoby:	21.06.2012
Datum odevzdání tištěné podoby:	21.06.2012
Datum proběhlé obhajoby:	24.09.2012
Oponenti:	Dr. Diana Maynard
	prof. Ing. Filip Železný, Ph.D.

Zásady pro vypracování

Sémantická anotace datových zdrojů webu je jedním z nejdůležitějších a nejproblematičtějších kroků na cestě postupné realizace sémantického webu. Princip sémantického popisu dat umožňuje automatickou integraci dat z různých zdrojů a je předpokladem pro strojové odvozování dalších znalostí z těchto dat. Sémantická anotace má široké využití i mimo web.
Tato práce by měla přispět k rozvoji technologií sémantické anotace dat. Výzkum se bude týkat především technologií, které umožňují automatizovat proces sémantické anotace. Práce by se měla zabývat studiem různých metod a přístupů k automatizaci sémantické anotace (lingvistické metody, wrapping nad (HTML) strukturou zdroje, grafické metody (OCR), metody strojového učení, pravidlové systémy, statistické a pravděpodobnostní metody).
Práce se bude mimo jiné zabývat textovými daty a možnostmi zapojení české lingvistické školy (především ÚFAL Praha a NLPlab Brno) v procesu sémantické anotace. Zde vyvíjené lingvistické nástroje pro češtinu budou porovnány s existujícími nástroji pro další jazyky (především pro angličtinu, němčinu), které se ve světě používají k extrakci informací z textu a potažmo k sémantické anotaci. Důraz bude kladen na vývoj a funkční testování metod použitelných v praxi.
Vedlejším cílem práce je propojení metod sémantické anotace s dalšími technologiemi (sémantického) webu (web-crawling, web content mining, RDF, OWL, ukládání a indexace sémantických dat, dotazování nad sémantickými daty ? ontologiemi, vzájemné mapování ontologií, dolování ontologií, preferenční dotazování, atp.). Úspěšná integrace by pak umožnila na menším modelu simulovat chování sémantického webu. Tento model by pak sloužil realističtějšímu vývoji anotace a dalších sémantických technologií.

Seznam odborné literatury

1. Kayed, M. and Shaalan, K. F. 2006. A Survey of Web Information Extraction Systems.
2. S. Handschuh, S. Staab (edited by). Annotation for the Semantic Web.
3. V.Crescenzi, G.Mecca, P.Merialdo. RoadRunner:Towards Automatic Data Extraction from Large Web Sites
4. Arasu, Arvind; Garcia-Molina, Hector. Extracting Structured Data from Web Pages.
5. D. Maruščák, R. Novotný, P. Vojtáš. Unsupervised Structured Web Data and Attribute Value Extraction.
6. Yoo Jung An, J. Geller, Yi-Ta Wu, Soon Ae Chun: Semantic deep web: automatic attribute extraction from the deep web data sources.
7. Lawrence Reeve, Hyoil Han. Survey of Semantic Annotation Platforms.
8. A. Kiryakov, B. Popov, D. Ognyanoff, D. Manov, A. Kirilov. Semantic Annotation, Indexing, and Retrieval.
9. G. Reif, H. Gall, M. Jazayeri. WEESA - Web Engineering for Semantic Web Applications.
10. H. Cunningham, D. Maynard, K. Bontcheva, V. Tablan. GATE: A Framework and Graphical Development Environment for Robust NLP Tools and Applications.
11. José Iria. T-Rex: A Flexible Relation Extraction Framework

Předběžná náplň práce

Sémantická anotace datových zdrojů webu je jedním z nejdůležitějších a nejproblematičtějších kroků na cestě postupné realizace sémantického webu. Princip sémantického popisu dat umožňuje automatickou integraci dat z různých zdrojů a je předpokladem pro strojové odvozování dalších znalostí z těchto dat. Sémantická anotace má široké využití i mimo web. Tato práce by měla přispět k rozvoji technologií sémantické anotace dat. Výzkum se bude týkat především technologií, které umožňují automatizovat proces sémantické anotace. Práce by se měla zabývat studiem různých metod a přístupů k automatizaci sémantické anotace (lingvistické metody, wrapping nad (HTML) strukturou zdroje, grafické metody (OCR), metody strojového učení, pravidlové systémy, statistické a pravděpodobnostní metody). Práce se bude mimo jiné zabývat textovými daty a možnostmi zapojení české lingvistické školy (především ÚFAL Praha a NLPlab Brno) v procesu sémantické anotace. Zde vyvíjené lingvistické nástroje pro češtinu budou porovnány s existujícími nástroji pro další jazyky (především pro angličtinu, němčinu), které se ve světě používají k extrakci informací z textu a potažmo k sémantické anotaci. Důraz bude kladen na vývoj a funkční testování metod použitelných v praxi. Vedlejším cílem práce je propojení metod sémantické anotace s dalšími technologiemi (sémantického) webu (web-crawling, web content mining, RDF, OWL, ukládání a indexace sémantických dat, dotazování nad sémantickými daty ? ontologiemi, vzájemné mapování ontologií, dolování ontologií, preferenční dotazování, atp.). Úspěšná integrace by pak umožnila na menším modelu simulovat chování sémantického webu. Tento model by pak sloužil realističtějšímu vývoji anotace a dalších sémantických technologií.

Předběžná náplň práce v anglickém jazyce

Semantic annotation of data from web-resources is one of the most important and most problematic steps on the way of realization of the semantic web. The semantically annotated data can be automatically integrated across different sources and such data are ready for the process of inference of additional knowledge from the data. This work is supposed to improve existing semantic annotation technologies. The research will be concentrated on technologies of automatization of the semantic annotation process. Different methods of the automatization will be concerned - linguistic methods, HTML wrapping, graphical methods (OCR), machine learning methods, rule-based systems, statistical and probabilistic methods. This work will also deal with textual data in Czech and with the possibility of employment of the Czech school of linguistics (ÚFAL Praha and NLPlab Brno) in the process of the semantic annotation. The exiting linguistic tools for Czech will be compared with the other tools (for other world languages), which were already used in the process of information extraction and semantic annotation. The secondary goal of this work is integration of the semantic annotation process with other (semantic) web technologies like: web-crawling, web content mining, RDF, OWL, semantic indexing and retrieval, ontology mapping, ontology mining, user profile mining, etc. Success in this goal will bring us a small model of semantic web. This model could be used for simulation and development of the semantic technologies and the development will be much more realistic than it could be in present times.