Navrhnout a implementovat systém pro vyhledávání, stahování, ukládání a případně indexování dat a metadat z rodiny XML, která jsou veřejně dostupná na Internetu. Systém by měl mít připojen k existujícímu systému Egothor, který řeší obdobnou úlohu pro HTML data. Mezi zpracovávaná data patří: XML data, XML schemata, DTD, XQuery dotazy, XSLT programy a případně další obdobné formáty; systém se musí vyrovnat i s daty neúplnými či nekorektními. Data budou vyhledávána jak na základě odkazů, vedoucích z HTML stránek nalezených samotným systémem Egothor, tak na základě vzájemných odkazů mezi sebou, případně na základě heuristických postupů. Shromážděná související data budou uspořádána do kolekcí tak, aby mohla sloužit pro statistickou analýzu jejich vlastností nebo pro testování XML databází či query procesorů.
Seznam odborné literatury
Extensible Markup Language (XML) 1.1, http://www.w3.org/TR/xml11/
Uniform Resource Identifier (URI), RFC 3986, http://gbiv.com/protocols/uri/rfc/rfc3986.html
Galamboš L. et al., Egothor, http://www.egothor.org/docs/e2.pdf
Předběžná náplň práce
Navrhnout a implementovat systém pro vyhledávání, stahování, ukládání a případně indexování dat a metadat z rodiny XML, která jsou veřejně dostupná na Internetu. Systém by měl mít připojen k existujícímu systému Egothor, který řeší obdobnou úlohu pro HTML data. Mezi zpracovávaná data patří: XML data, XML schemata, DTD, XQuery dotazy, XSLT programy a případně další obdobné formáty; systém se musí vyrovnat i s daty neúplnými či nekorektními. Data budou vyhledávána jak na základě odkazů, vedoucích z HTML stránek nalezených samotným systémem Egothor, tak na základě vzájemných odkazů mezi sebou, případně na základě heuristických postupů. Shromážděná související data budou uspořádána do kolekcí tak, aby mohla sloužit pro statistickou analýzu jejich vlastností nebo pro testování XML databází či query procesorů.
Předběžná náplň práce v anglickém jazyce
Design and implement a system for the retrieval, storage and, optionally, indexing of publicly available data and meta-data of the XML-family. The system shall be attached to the Egothor system which implements this task for HTML data. The processed data formats are: XML data, XML schema, DTD, XQuery, XSLT etc. The system shall be able to process incomplete or incorrect data. The data shall be located using links leading from HTML pages retrieved by the Egothor system, using links among the XML-family data, or using heuristic approaches. Related collected data will be organized into collections that may be statistically analysed or used in testing of XML databases or query processors.