hidden - assigned and confirmed by the Study Dept.
Date of registration:
27.11.2007
Date of assignment:
27.11.2007
Date and time of defence:
24.05.2010 00:00
Date of electronic submission:
24.05.2010
Date of proceeded defence:
24.05.2010
Opponents:
RNDr. Michal Žemlička, Ph.D.
Guidelines
Navrhnout a implementovat systém pro vyhledávání, stahování, ukládání a případně indexování dat a metadat z rodiny XML, která jsou veřejně dostupná na Internetu. Systém by měl mít připojen k existujícímu systému Egothor, který řeší obdobnou úlohu pro HTML data. Mezi zpracovávaná data patří: XML data, XML schemata, DTD, XQuery dotazy, XSLT programy a případně další obdobné formáty; systém se musí vyrovnat i s daty neúplnými či nekorektními. Data budou vyhledávána jak na základě odkazů, vedoucích z HTML stránek nalezených samotným systémem Egothor, tak na základě vzájemných odkazů mezi sebou, případně na základě heuristických postupů. Shromážděná související data budou uspořádána do kolekcí tak, aby mohla sloužit pro statistickou analýzu jejich vlastností nebo pro testování XML databází či query procesorů.
References
Extensible Markup Language (XML) 1.1, http://www.w3.org/TR/xml11/
Uniform Resource Identifier (URI), RFC 3986, http://gbiv.com/protocols/uri/rfc/rfc3986.html
Galamboš L. et al., Egothor, http://www.egothor.org/docs/e2.pdf
Preliminary scope of work
Navrhnout a implementovat systém pro vyhledávání, stahování, ukládání a případně indexování dat a metadat z rodiny XML, která jsou veřejně dostupná na Internetu. Systém by měl mít připojen k existujícímu systému Egothor, který řeší obdobnou úlohu pro HTML data. Mezi zpracovávaná data patří: XML data, XML schemata, DTD, XQuery dotazy, XSLT programy a případně další obdobné formáty; systém se musí vyrovnat i s daty neúplnými či nekorektními. Data budou vyhledávána jak na základě odkazů, vedoucích z HTML stránek nalezených samotným systémem Egothor, tak na základě vzájemných odkazů mezi sebou, případně na základě heuristických postupů. Shromážděná související data budou uspořádána do kolekcí tak, aby mohla sloužit pro statistickou analýzu jejich vlastností nebo pro testování XML databází či query procesorů.
Preliminary scope of work in English
Design and implement a system for the retrieval, storage and, optionally, indexing of publicly available data and meta-data of the XML-family. The system shall be attached to the Egothor system which implements this task for HTML data. The processed data formats are: XML data, XML schema, DTD, XQuery, XSLT etc. The system shall be able to process incomplete or incorrect data. The data shall be located using links leading from HTML pages retrieved by the Egothor system, using links among the XML-family data, or using heuristic approaches. Related collected data will be organized into collections that may be statistically analysed or used in testing of XML databases or query processors.