velikost textu

Semantic annotations

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Semantic annotations
Název v češtině:
Sémantické anotace
Typ:
Disertační práce
Autor:
Mgr. Jan Dědek, Ph.D.
Školitel:
prof. RNDr. Peter Vojtáš, DrSc.
Oponenti:
Dr. Diana Maynard
doc. Ing. Filip Železný, Ph.D.
Id práce:
44727
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra softwarového inženýrství (32-KSI)
Program studia:
Informatika (P1801)
Obor studia:
Softwarové systémy (4I2)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
24. 9. 2012
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Klíčová slova:
extrakce informací, sémantický web, klasifikace dokumentů, strojové učení, ontologie
Klíčová slova v angličtině:
information extraction, semantic web, document classification, machine learning, ontologies
Abstrakt:
V této práci jsou prezentována čtyři relativně samostatná témata. Každé z nich reprezentuje jeden aspekt extrakce informací z textů. První dvě témata jsou zaměřena na naše metody pro extrakci informací založené na hloubkové lingvistické analýze textu. První téma se týká toho, jak byla lingvistická analýza použita při extrakci v kombinaci s ručně navrženými extrakčními pravidly. Druhé téma se zabývá metodou pro automatickou indukci extrakčních pravidel pomocí Induktivního logického programování. Třetí téma práce kombinuje extrakci informací s odvozováním znalostí (reasoningem). Jádro naší extrakční metody bylo experimentálně implementováno pomocí technologií sémantického webu, což umožňuje export extrakčních pravidel do tzv. přenositelných extrakčních ontologií, které jsou nezávislé na původním extrakčním nástroji. Poslední téma této práce se zabývá klasifikací dokumentů a fuzzy logikou. Zkoumáme možnosti využití informací získaných metodami extrakce informací ke klasifikaci dokumentů. K tomuto účelu byla experimentálně použita naše implementace tzv. Fuzzy ILP klasifikátoru.
Abstract v angličtině:
Four relatively separate topics are presented in the thesis. Each topic represents one particular aspect of the Information Extraction discipline. The first two topics are focused on our information extraction methods based on deep language parsing. The first topic relates to how deep language parsing was used in our extraction method in combination with manually designed extraction rules. The second topic deals with a method for automated induction of extraction rules using Inductive Logic Programming. The third topic of the thesis combines information extraction with rule based reasoning. The core of our extraction method was experimentally reimplemented using semantic web technologies, which allows saving the extraction rules in so called shareable extraction ontologies that are not dependent on the original extraction tool. The last topic of the thesis deals with document classification and fuzzy logic. We are investigating the possibility of using information obtained by information extraction techniques to document classification. Our implementation of so called Fuzzy ILP Classifier was experimentally used for the purpose of document classification.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Jan Dědek, Ph.D. 1.87 MB
Stáhnout Příloha k práci Mgr. Jan Dědek, Ph.D. 169.59 MB
Stáhnout Abstrakt v českém jazyce Mgr. Jan Dědek, Ph.D. 42 kB
Stáhnout Abstrakt anglicky Mgr. Jan Dědek, Ph.D. 42 kB
Stáhnout Posudek vedoucího prof. RNDr. Peter Vojtáš, DrSc. 187 kB
Stáhnout Posudek oponenta Dr. Diana Maynard 608 kB
Stáhnout Posudek oponenta doc. Ing. Filip Železný, Ph.D. 83 kB
Stáhnout Záznam o průběhu obhajoby 125 kB