Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 290)
Detail práce
   Přihlásit přes CAS
Analýza a opravy otevřených dat
Název práce v češtině: Analýza a opravy otevřených dat
Název v anglickém jazyce: Analyzing and Fixing Open Data
Klíčová slova: Otevřená data, znovu publikování, opravy struktury
Klíčová slova anglicky: Open Data, re-publishing, fixing of structure
Akademický rok vypsání: 2018/2019
Typ práce: bakalářská práce
Jazyk práce:
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: doc. RNDr. Irena Holubová, Ph.D.
Řešitel:
Konzultanti: doc. Mgr. Martin Nečaský, Ph.D.
Zásady pro vypracování
Mnoho institucí po celém světě se snaží zveřejňovat data týkající se jejich působení. Obvykle pro tyto účely využívají několik různých výstupních formátů (modelů), např. XML, JSON, CSV. Snahu o zpřístupnění dat pro strojové zpracování ale omezuje kvalita výstupních dat. Při bližším zkoumaní je vidět, že struktura dat často odporuje doporučením pro příslušný formát (např. data se stromovou strukturou jsou zveřejňována ve formě "plochých" záznamů).

Prvním cílem práce je nasbírat reprezentativní množinu dat uvedeného typu a jejich strukturu zanalyzovat nejprve ručně na malém vzorku a poté pomocí vhodného pomocného nástroje. Výstupem této analýzy by měla být sada typických chyb a problémů včetně statistik jejich výskytů. Ve druhé fázi autor navrhne, implementuje a experimentálně ověří vlastní přístup pro opravu vybrané podmnožiny identifikovaných problémů.
Seznam odborné literatury
https://catalog.data.gov/dataset

https://www.europeandataportal.eu/

https://data.humdata.org/
Předběžná náplň práce v anglickém jazyce
Many institutions around the world are trying to publish data about their activities. Usually they use several different output formats (models), such as XML, JSON, CSV. These attempts to provide the data for further machine processing is however limited by the quality of the output data. Under a closer analysis we can see that the structure of the data often contradicts recommendations for the particular format (e.g. tree data is published in the form of "flat" records).

The first aim of the thesis is to collect a representative set of data of this type and analyze its structure first manually on a small sample and then with a suitable auxiliary tool. The output of this analysis should be a set of typical errors and problems, including statistics of their occurrences. In the second phase, the author will design, implement, and experimentally verify his/her own approach to repair a selected subset of identified issues.
 
Univerzita Karlova | Informační systém UK