Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 384)
Detail práce
   Přihlásit přes CAS
Systém pro sběr XML dat a metadat z Internetu
Název práce v češtině: Systém pro sběr XML dat a metadat z Internetu
Název v anglickém jazyce: Collecting XML data and meta-data from the Internet
Akademický rok vypsání: 2007/2008
Typ práce: diplomová práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. David Bednárek, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 27.11.2007
Datum zadání: 27.11.2007
Datum a čas obhajoby: 24.05.2010 00:00
Datum odevzdání elektronické podoby:24.05.2010
Datum proběhlé obhajoby: 24.05.2010
Oponenti: RNDr. Michal Žemlička, Ph.D.
 
 
 
Zásady pro vypracování
Navrhnout a implementovat systém pro vyhledávání, stahování, ukládání a případně indexování dat a metadat z rodiny XML, která jsou veřejně dostupná na Internetu. Systém by měl mít připojen k existujícímu systému Egothor, který řeší obdobnou úlohu pro HTML data. Mezi zpracovávaná data patří: XML data, XML schemata, DTD, XQuery dotazy, XSLT programy a případně další obdobné formáty; systém se musí vyrovnat i s daty neúplnými či nekorektními. Data budou vyhledávána jak na základě odkazů, vedoucích z HTML stránek nalezených samotným systémem Egothor, tak na základě vzájemných odkazů mezi sebou, případně na základě heuristických postupů. Shromážděná související data budou uspořádána do kolekcí tak, aby mohla sloužit pro statistickou analýzu jejich vlastností nebo pro testování XML databází či query procesorů.
Seznam odborné literatury
Extensible Markup Language (XML) 1.1, http://www.w3.org/TR/xml11/
Uniform Resource Identifier (URI), RFC 3986, http://gbiv.com/protocols/uri/rfc/rfc3986.html
Galamboš L. et al., Egothor, http://www.egothor.org/docs/e2.pdf

Předběžná náplň práce
Navrhnout a implementovat systém pro vyhledávání, stahování, ukládání a případně indexování dat a metadat z rodiny XML, která jsou veřejně dostupná na Internetu. Systém by měl mít připojen k existujícímu systému Egothor, který řeší obdobnou úlohu pro HTML data. Mezi zpracovávaná data patří: XML data, XML schemata, DTD, XQuery dotazy, XSLT programy a případně další obdobné formáty; systém se musí vyrovnat i s daty neúplnými či nekorektními. Data budou vyhledávána jak na základě odkazů, vedoucích z HTML stránek nalezených samotným systémem Egothor, tak na základě vzájemných odkazů mezi sebou, případně na základě heuristických postupů. Shromážděná související data budou uspořádána do kolekcí tak, aby mohla sloužit pro statistickou analýzu jejich vlastností nebo pro testování XML databází či query procesorů.
Předběžná náplň práce v anglickém jazyce
Design and implement a system for the retrieval, storage and, optionally, indexing of publicly available data and meta-data of the XML-family. The system shall be attached to the Egothor system which implements this task for HTML data. The processed data formats are: XML data, XML schema, DTD, XQuery, XSLT etc. The system shall be able to process incomplete or incorrect data. The data shall be located using links leading from HTML pages retrieved by the Egothor system, using links among the XML-family data, or using heuristic approaches. Related collected data will be organized into collections that may be statistically analysed or used in testing of XML databases or query processors.
 
Univerzita Karlova | Informační systém UK