Thesis (Selection of subject)Thesis (Selection of subject)(version: 285)
Assignment details
   Login via CAS
Analýza a opravy otevřených dat
Thesis title in Czech: Analýza a opravy otevřených dat
Thesis title in English: Analyzing and Fixing Open Data
Key words: Otevřená data, znovu publikování, opravy struktury
English key words: Open Data, re-publishing, fixing of structure
Academic year of topic announcement: 2018/2019
Type of assignment: Bachelor's thesis
Thesis language:
Department: Department of Software Engineering (32-KSI)
Supervisor: doc. RNDr. Irena Holubová, Ph.D.
Author:
Advisors: doc. Mgr. Martin Nečaský, Ph.D.
Guidelines
Mnoho institucí po celém světě se snaží zveřejňovat data týkající se jejich působení. Obvykle pro tyto účely využívají několik různých výstupních formátů (modelů), např. XML, JSON, CSV. Snahu o zpřístupnění dat pro strojové zpracování ale omezuje kvalita výstupních dat. Při bližším zkoumaní je vidět, že struktura dat často odporuje doporučením pro příslušný formát (např. data se stromovou strukturou jsou zveřejňována ve formě "plochých" záznamů).

Prvním cílem práce je nasbírat reprezentativní množinu dat uvedeného typu a jejich strukturu zanalyzovat nejprve ručně na malém vzorku a poté pomocí vhodného pomocného nástroje. Výstupem této analýzy by měla být sada typických chyb a problémů včetně statistik jejich výskytů. Ve druhé fázi autor navrhne, implementuje a experimentálně ověří vlastní přístup pro opravu vybrané podmnožiny identifikovaných problémů.
References
https://catalog.data.gov/dataset

https://www.europeandataportal.eu/

https://data.humdata.org/
Preliminary scope of work in English
Many institutions around the world are trying to publish data about their activities. Usually they use several different output formats (models), such as XML, JSON, CSV. These attempts to provide the data for further machine processing is however limited by the quality of the output data. Under a closer analysis we can see that the structure of the data often contradicts recommendations for the particular format (e.g. tree data is published in the form of "flat" records).

The first aim of the thesis is to collect a representative set of data of this type and analyze its structure first manually on a small sample and then with a suitable auxiliary tool. The output of this analysis should be a set of typical errors and problems, including statistics of their occurrences. In the second phase, the author will design, implement, and experimentally verify his/her own approach to repair a selected subset of identified issues.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html