Last update: RNDr. Michal Kopecký, Ph.D. (09.05.2019)
Basic semantic web models are covered in NSWI145, dynamical aspects of web data extraction (semantization) are considered in NDBI021 and NSWI167 (see also NSWI144 and NSWI142).
Semantization is appropriate dynamic content enrichment, needed for automated processing if it’s content.
We are treating the problem from SW engineering perspective: models, methodology and process of web semantization.
We cover basic formal knowledge necessary for orientation in the field and learn some practical skills.
Labs are composed of reporting on current achievements, learning rules for semantization.
Last update: RNDr. Michal Kopecký, Ph.D. (09.05.2019)
Základní modely sémantického webu jsou pokryty v NSWI145 , dynamické aspekty extrakce dat z webu (sémantizace) jsou pojednány v NDBI021 a NSWI167 (též NSWI144 a NSWI142).
Sémantizace je příslušné obohacování obsahu pro automatizaci jeho zpracování.
Problematice se budeme věnovat hlavně z pohledu SW inženýrství: modelů, metodologií a procesů postupné sémantizace. Pokryjeme základní formální znalosti potřebné pro orientaci v oblasti a naučíme se některé praktické dovednosti.
Na cvičeních se referuje o současných výsledcích z předních konferencí z oboru, učí pravidla pro sémantizaci.
Course completion requirements -
Last update: prof. RNDr. Peter Vojtáš, DrSc. (12.10.2017)
Terms of passing the course consist of reporting on current achievements, induction on semantized data, project of a virtual Lean Startup and customer imitation via a social network. These are only conditions for getting credits. Exam is oral and requires basic understanding of whole material.
As soon as terminology is introduced, detailed milestones (also form of deliverables) and preferred deadlines will be announced (with possible repeated attempts). There is no evidence on personal presence. Nevertheless, no additional explanation for tasks will be given, except on the respective lab and brief description on the course web. Final deadline is end of semester (without repeated attempts).
Last update: prof. RNDr. Peter Vojtáš, DrSc. (12.10.2017)
Terms of passing the course consist of reporting on current achievements, induction on semantized data, project of a virtual Lean Startup and customer imitation via a social network. These are only conditions for getting credits. Exam is oral and requires basic understanding of whole material.
As soon as terminology is introduced, detailed milestones (also form of deliverables) and preferred deadlines will be announced (with possible repeated attempts). There is no evidence on personal presence. Nevertheless, no additional explanation for tasks will be given, except on the respective lab and brief description on the course web. Final deadline is end of semester (without repeated attempts).
Literature -
Last update: RNDr. Michal Kopecký, Ph.D. (10.05.2017)
P. Hitzler, M. Krötzsch, S. Rudolph. Foundations of Semantic Web Technologies. Chapman & Hall/CRC 2010, http://www.semantic-web-book.org/page/Slides
E. Ries. Lean Startup, Crown Business 2011
D. Harel, D. Kozen, J. Tiuryn. Dynamic Logic. The MIT Press 2000
G. James, D. Witten, T. Hastie, R. Tibshirani. An Introduction to Statistical Learning with Applications in R. Springer 2013
C. D. Manning, P. Raghavan, H. Schütze. An Introduction to Information Retrieval. Cambridge University Press 2009
Last update: RNDr. Michal Kopecký, Ph.D. (10.05.2017)
Pascal Hitzler, Markus Krötzsch, Sebastian Rudolph. Foundations of Semantic Web Technologies. Chapman & Hall/CRC 2010 , http://www.semantic-web-book.org/page/Slides
Eric Ries. Lean Startup, Crown Business 2011
David Harel, Dexter Kozen, Jerzy Tiuryn. Dynamic Logic. Publisher: The MIT Press 2000
G. James, D. Witten, T. Hastie, R. Tibshirani. An Introduction to Statistical Learning with Applications in R. Springer 2013C.
D. Manning, P. Raghavan, H. Schütze. An Introduction to Information Retrieval. Cambridge University Press 2009
Syllabus -
Last update: RNDr. Michal Kopecký, Ph.D. (10.05.2017)
Web semantization
Basic problems and vision of automation of web content processing, extraction, annotation
Lean start-up methodology and semantization
RDF-framework, description logic, OWL
Data model RDF and RDFS as a model of metadata, formal semantics, satisfiability
Basics of description logic (DeL), knowledge and ontology representation
Web querying languages
Language SPARQL, SPARQL algebra
Dynamic logic
Propositional dynamic logic (DyL)
Decidability of DyL
A dynamic model of web semantization
Integration of W3C models and Dynamic logic
Reliability of automated web information extraction and annotation
A Kripke style model: states are query_based_predicate logic, programs (extractors) remain propositional + information on training extractors (metrics, data)
A Hypothesis - Extraction success is similar on similar resources (e.g. created by same templates)
Last update: RNDr. Michal Kopecký, Ph.D. (10.05.2017)
Sémantizace webu
Základní problémy a vize automatizace zpracování obsahu webu, extrakce, anotace,
Metodologie Lean start-up a sémantizace
RDF-rámec, Deskripční logika, OWL
Datový model RDF a RDFS jako model metadata, formální sémantika, splňování
Základy deskripční logiky (DeL), znalosti a ontologie,
Webovské dotazovací jazyky
Jazyk SPARQL, SPARQL algebra
Dynamická logika
Výroková dynamická logika (DyL)
Rozhodnutelnost DyL
Dynamický model sémantizace webu
Integrace W3C modelů a Dynamické logiky
Spolehlivost automatické extrakce a anotace informací z webu
Kripkeovský model: stavy jsou predikátové se sémantikou založenou na dotazovacích jazycích, program (extraktory) zůstávají výrokové + informace o trénování extraktorů (metriky, data)
Hypotéza - Úspěšnost extrakce je podobná úspěšnosti na podobných zdrojích (např. tvořených stejnou šablonou)