Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Metodologie a problémy při transformaci dat a určení jejího významu v rámci integrace heterogenních informačních zdrojů
Název práce v češtině: Metodologie a problémy při transformaci dat a určení jejího významu v rámci integrace heterogenních informačních zdrojů
Název v anglickém jazyce: Methodology and problems of data transformation and determine its importance in the integration of heterogeneous information sources
Klíčová slova: Profilace dat, transformace dat, transformace informací, extrakce dat, extrakce informací, čištění dat, oprava dat, konverze dat, systémová integrace, informační hodnota, ontologie, sémantické mapování, sémantický metadatový model, derivace podobných obje
Klíčová slova anglicky: Data Profiling, Data Transforamtion, Information Transformation, Information Extraction, Data Cleansing, Information Cleansing, Data Correction, Data Conversion, System Integration, Information Value, Information Weight, Ontology, Semantic Mapping, Semant
Akademický rok vypsání: 2004/2005
Typ práce: disertační práce
Jazyk práce: čeština
Ústav: Ústav informačních studií a knihovnictví (21-UISK)
Vedoucí / školitel: doc. PhDr. Richard Papík, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 04.08.2005
Datum zadání: 04.08.2005
Schválení administrátorem: zatím neschvalováno
Datum a čas obhajoby: 26.09.2012 00:00
Datum odevzdání elektronické podoby:19.04.2012
Datum proběhlé obhajoby: 26.09.2012
Odevzdaná/finalizovaná: odevzdaná studentem a finalizovaná
Oponenti: Jan Dvořák, Dr.
  Miroslav Bureš
 
 
Zásady pro vypracování
Tato práce řeší problematiku transformace dat a s nimi souvisejících informací, která je aktuálním problémem v řadě vědních, ale i komerčních oblastí. Výpovědní hodnota informace, její kvalita a kvalita dat, ze kterých vychází, se v různých systémech liší. Toto se děje nejen z důvodu odlišné typologie určitého zdroje informací, ale často i díky samotnému způsobu chápání či zachycení informace o popisované entitě skutečného světa. Informační systémy, v případě této práce jsou to konkrétně databázové systémy, mohou bezchybně fungovat jako samostatné celky. Problém nastává až v momentě potřeby integrace dvou takových heterogenních systémů a následné migraci informací mezi nimi. Na základě této potřeby lze práci rozdělit do čtyř hlavních částí.

V první části je popsán způsob, jakým je možné klasifikovat kvalitu dat ve zdroji určeném k integraci, ze kterých lze informace získávat. Vzhledem k obecně známému problému nedostatečné projektové a systémové dokumentace (STOLOVITSKY, 2010) jsou zde popsány takové metody, které lze využít i za předpokladu minimální spolupráce s tvůrcem či správcem zdrojového systému. Prvním krokem je získání čistě statistických hodnot o jednotlivých popisovaných entitách, které jsou samotným systémem automaticky uchovávány (velikost popisované entity, množství jejích vlastností-atributů, četnost (kardinalita) entity atp.). Další metody pak zkoumají samotnou kvalitu dat, jejich význam v kontextu dalších informací, které systém reprezentuje, jejich stabilitu v závislosti na čase a v neposlední řadě konzistenci v reprezentaci popisované skutečnosti. Tyto metody se souhrnně dají označit jako datová profilace. Popsána je i metodika dokumentace takových měření a rozšířená validace za využití externích pravidel (pro ilustraci např. regulárních výrazů).

Druhá část práce se zabývá výběrem a přenosem již klasifikované informace ze zdrojového systému do systému cílového, tedy převodem dat na informaci a jejím následném uložení opět ve formě dat. V tuto chvíli je již známé spojení mezi atributy zdrojového systému a odpovídajícími atributy v systému cílovém. Jednotlivé popisované metodologie lze označit zjednodušeně jako extrakci (Extraction), čištění (Cleansing), opravu (Correction), konverzi (Conversion) a transformaci (Transformation). Techniky využité v rámci těchto metodologií jsou ilustrovány názornými příklady.

Třetí část, která předchází vzniku modelů a tvorbě mapování mezi modely různých systémů, se zabývá analýzou entit skutečného světa, jejich vztahů a jejich omezení. Výsledkem této analýzy je buď ontologie, nebo model entit v úrovni metadat spolu s definicí jednotlivých atributů těchto entit, typů atributů a opět omezujících pravidel. Tento tzv. konceptuální model je základem pro vznik datového slovníku. Konkretizace tohoto modelu, a tedy i slovníku, do logické a následně fyzické roviny se již zcela odvíjí od platformy, na které se nachází konkrétní instance resp. od prostředí, ve kterém jsou data popisující skutečnost uchovávána.

Ve čtvrté části je blíže popsán způsob, kterým je možné sémanticky mapovat entity jednotlivých zdrojů. Výsledkem této činnosti je vznik terciálních informací o samotném zdroji, entitách a pravidlech jejich integrace, které lze také označit za jakýsi metadatový model metadat. V této části jsou popsány a ilustrovány základní metody a způsoby takovéhoto mapování v jeho člověkem čitelné reprezentaci. Vzhledem k vysoké ceně již existujících softwarových nástrojů, kterými lze tento problém řešit, je zde kladen větší důraz na teoretické a metodologické prvky, raději než na popis práce s určitým komerčním softwarem.

Tato práce si klade za cíl nabídnout v praxi využitelné metody integrace různých zdrojů dat a nastínit možná úskalí, kterých by se měl tým zodpovědný za realizaci takovéto integrace vyvarovat.

V závěru práce je uveden seznam excerpovaných pramenů, původních dokumentů a dalších relevantních zdrojů.
Seznam odborné literatury
1. ABERDEEN GROUP. 2007. Customer Data Quality:Roadmap for Growth and Profitability [online]. A White Paper of A Hartle-Hanks Company. June, 2007. [cit. 2012-01-22]. Dostupný z WWW: <http://research.ittoolbox.com/white-papers/pdfViewer.asp?r=http://hosteddocs.ittoolbox.com/Aberdeen_CDQ.PDF>.

2. ADELMAN, Sid; MOSS, Larisa; ABAI, Majid. 2005. Data Strategy. Addison-Wesley Professional IN, June 25, 2005. ISBN 978-0321240996.

3. AKENHURST, D. H.; KENT, S. 2002. A relational approach to defining transformations in a metamodel. In UML 2002 - The Unified Modeling Language. Model Engineering, Languages, Concepts, and Tools. 5th International Conference, Dresden, Germany, September/October 2002, Proceedings [online]. Springer, J. M. Jezequel, H. Hussmann, and S. Cook, Eds., vol. 2460 of LNCS, 243-258. [cit. 2011-08-10]. Dostupný z WWW:
<http://www.cs.kent.ac.uk/projects/kmf/Documents/uml02transf.pdf>.

4. BARTOŠ, Ivan; ŠMILAUER, Bohdan Ing. Získávání dat z informačních systémů (Z39.50): Definice aplikačních služeb a specifikace protokolu - volný výklad původní normy. ZIG - CR. 2002, Praha. (200 s.) (Information Retrieval (Z39.50): Application Service Definition and Protocol Specification) Dostupný z WWW <http://www.stk.cz/ZIG/Z39.50.zip>.

5. BARTOŠ, Ivan. Aplikace protokolu Z39.50 a perspektivy dalšího rozvoje. 2003, Praha. 150 s. (white paper).

6. BENYOVSZKY, Štěpán, Ing. 2003. eProvisioning: Synchronizace obsahu informací mezi nesourodými systémy. In ISSS2003 - Konference Internet ve státní správě a samosprávě. Hradec Králové, 23. 3. 2003. [online]. [cit. 2012-02-20]. Dostupný z WWW:
<http://www.isss.cz/archiv/2003/download/prezentace/BENYOVSZKY_clarionet.ppt>.

7. BERNSTEIN, Philip A.; HALEVY, Alon Y.; POTTINGER, Rachel, A. 2000. A vision of management of complex models [online]. SIGMOD Record 29(4):55-63 (2000). [cit. 2011-11-10]. Dostupný z FTP:
<ftp://ftp.research.microsoft.com/pub/tr/tr-2000-53.pdf>.

8. BERNSTEIN, Philip, A. 2003. Applying Model Management to Classical Meta Data Problems. In 2003 CIDR Conference [online]. (Microsoft Research, One Microsoft Way) [cit. 2009-08-10]. Dostupný z WWW:
<http://research.microsoft.com/~philbe/PBERNSTEINCIDR12ext.pdf>.

9. BÍLA, J.; TLAPÁK, M. 2004. Inženýrské ontologie pro reprezentaci funkcí v konceptuálním navrhování [online]. In Jemná mechanika a optika, No. 5, 2004, p. 134-137. ISSN: 0447-6441

10. BOHUSLAV, Jiří. 2006. Metody a procesy čištění dat. IT Systems [online]. Příloha Business Intelligence.7-8/2006. Str. 14. [cit. 2011-12-10]. Dostupný z WWW: <http://www.systemonline.cz/business-intelligence/metody-a-procesy-cisteni-dat.htm>. ISSN 1802-615X.

11. DAVENPORT, Thomas, H.; COHEN, Don; JACOBSON, Al. 2005. Competing on Analytics. [online]. Babson Executive Education - Working Knowledge Research Report. May, 2005. 4-5 s. [cit. 2012-02-10]. Dostupný z WWW:
<http://www.babsonknowledge.org/analytics.pdf>

12. ECKERSON, Wayne. 2004. Data Profiling: A Tool Worth Buying (Really!). DM Review Magazine [online].June, 2004 Issue[cit. 2011-08-03]. Dostupný z WWW: <http://www.dmreview.com/article_sub.cfm?articleId=1003990>.

13. GUARINO, Nicola. 1995. Formal Ontology, Conceptual Analysis and Knowledge Representation [online]. In International Journal of Human-Computer Studies - Special issue: the role of formal ontology in the information technology archive. Volume 43 Issue 5-6, Nov./Dec. 1995. Academic Press, Inc. Duluth, MN, USA. p.19 [cit. 2012-02-10]. Dostupný z WWW:
<http://www.loa.istc.cnr.it/Papers/FormOntKR.pdf>.

14. GUARION, N.; GIARETTA, P. 1995. Ontologies and knowledge bases, towards a terminological clarification [online]. 1995. [cit. 2012-02-10]. Dostupný z WWW: <http//www.ladseb.pd.cnr.it/infor/Ontology/Papers/KBKS95.pdf >.

15. HAUSMANN, Hendrik, Jan; KENT, Stuart. 2003 Visualizing Model Mappings in UML In Proceedings of the 2003 ACM symposium on Software visualization 2003, San Diego, California., June 11 - 13, 2003. SESSION: All things UML [online]. Strana: 169-178. [cit. 2011-11-11]. Dostupný z WWW: < http://www.cs.uni-paderborn.de/uploads/tx_sibibtex/Visualizing_Model_Mappings_in_UML.pdf >. ISBN:1-58113-642-0

16. HAY, Colin; ROSAMOND. Ben. In Journal of European Public Policy, Volume 9, Issue 2, 2002 [online]., 147-157. [cit. 2011-08-10]. Dostupný z WWW:
<http://users.ox.ac.uk/~ssfc0041/globalisation.pdf>.

17. HORRIDGE, Matthew; RECTOR, Allan; STEVENS, Robert; WROE, Chris. 2004. A Practical Guide To Building OWL Ontologies Using The Proétgé-OWL Plugin and CO-ODE Tools [online]. Edition 1.0. The University Of Manchester. August 27, 2004. [cit. 2009-10-01]. Dostupný z WWW:
<http://www.co-ode.org/resources/tutorials/ProtegeOWLTutorial.pdf>.

18. ISO/IEC 11179 - 1:1999. Information technology — Specification and standardization of data elements — Part 1:Framework for the specification and standardization of data elements [online]., [cit. 2011-10-22]. Dostupný z WWW: <http://metadata-standards.org/11179-1/ISO-IEC_11179-1_1999_IS_E.pdf>.

19. KLEMPA, Tomáš. 2006/2007. Opis jazyka OWL pre reprezentáciu ontológií [online]. Slovenská technická univerzita, Fakulta informatiky a informačných technológií, Ústav informatiky a softvérového inžinierstva. Prispevok k prednaske Znalostné systémy. [cit. 2012-02-02]. Dostupný z WWW:
<http://www2.fiit.stuba.sk/~kapustik/ZS/Clanky0607/klempa/index.html>.

20. KYJONKA, Vladimír. 2006. Datová kvalita pod lupou. IT Systems [online]. Příloha Business Intelligence.7-8/2006. Str 16. [cit. 2012-02-11]. Dostupný z WWW: <http://www.systemonline.cz/business-intelligence/datova-kvalita-pod-lupou-1.htm>. ISSN 1802-615X.

21. LUJÁN-MORA, Sergio; VASSILIADIS, Panos; TRUJILLO, J. 2004. Data Mapping Diagrams for Data Warehouse Design with UML. In Congrès ER 2004: conceptual modeling (Shanghai, 8-12 November 2004) [online]. [cit. 2012-01-2]. Dostupný z WWW:
<http://www.cs.uoi.gr/~pvassil/publications/2004_ER/ER_2004.pdf>

22. MCGUINESS, Doborah; VAN HARMELEN, Frank. 2004. OWL Web Ontology Language Overview. W3C 2004.
Dostupný z WWW: <http://www.w3.org/TR/owl-features/>

23. MOHANEC, Martin. 2004. Několik poznámek k porozumění objektového paradigmatu. In Objekty 2004. Ostrava, VSB-TUO, 2004, s. 189-197.

24. MOHANEC, Martin. 2006. KONCEPTUÁLNÍ MODELOVÁNÍ, FORMÁLNÍ ZÁKLADY A ONTOLOGIE [online]. České vysoké učení technické – FEL. Česká republika. 2006. [cit. 2012-01-20]. Dostupný z WWW:
<http://formular-ekf.vsb.cz/formulare/F01/tsw/getfile.php?prispevekid=873>.

25. MOHANEC, Martin. 2005. Ontologie a konceptuální modelování (stručný úvod) [online]. České vysoké učení technické – FEL. Česká republika. [cit. 2012-01-20] Prezentace v MS PowerPoint. Dostupný z WWW:
<www.gisaci.upol.cz/file/637/ontologie-4-omo.html>.

26. OLSON, Jack. 2002. Data Profiling: The Data Quality Assurance Analyst’s Best Tool. DM Direct Newsletter [online].December 13, 2002 Issue[cit. 2011-08-09]. Dostupný z WWW: < http://www.information-management.com/infodirect/20021213/6156-1.html>.

27. OMG. 2010. Object Constraint Language, Version 2.2.[online].February 2010. [cit. 2011-08-10]. Dostupný z WWW: <http://www.omg.org/spec/OCL/2.2/.>.

28. PAPÍK, Richard. 2001. Competitive Intelligence, informační služby, Internet a informační profese. Ikaros [online]. 2005. Roč. 5, č. 4 [cit. 2011-07-18]. Dostupný z WWW: <http://www.ikaros.cz/node/739>. URN-NBN:cz-ik739. ISSN 1212-5075.

29. RAHM, Erhard; BERNSTEIN, Philip, A. 2001. On Matching Schemas Automatically [online]. Microsoft Research Technical Report MSR-TR-2001-17. February, 2001. [cit. 2011-08-10]. Dostupný z FTP: <ftp://ftp.research.microsoft.com/pub/tr/tr-2001-17.pdf>.

30. Regular Expression Library[online]. 2008. [cit. 2011-02-28]. Dostupný z WWW: <http://regexlib.com/>.

31. RFC 2822. Internet Message Format [online]. 2001 Resnick, P. April 2001 [cit. 2011-02-28]. 51 s. Dostupný z FTP: <ftp://ftp.rfc-editor.org/in-notes/rfc2822.txt>.

32. RICHTA, Karel. 2010. Jazyk OCL a modelem řízený vývoj. In: Moderní database 2010. Nesuchyně, Komix. Praha 2010 [cit. 2011-02-28]. Dostupný z WWW: <https://www.ksi.mff.cuni.cz/~richta/publications/Richta-MD-2010.pdf>.

33. RICHTA, Karel. 2010 (2). Rekonstrukce OCL z SQL. [online]. In DATAKON 2010. Ostrava: Ostravská univerzita, 2010, s. 1-10. [cit. 2011-02-28]. Dostupný z WWW: <https://www.ksi.mff.cuni.cz/~richta/publications/Datakon-2010-Richta.pdf>. ISBN 978-80-7368-424-2.

34. RUSSOM, Philip. 2007. Unifying the Practices of Data Profiling, Integration, and Quality (dPIQ) [online]. TDWI Monograph Series. October, 2007. [cit. 2011-12-10]. Dostupný z WWW:
<http://download.101com.com/pub/tdwi/Files/TDWI_Monograph_DataFlux_Oct2007.pdf>.

35. SATRAPA, Pavel. 2000. Seriál Regulární výrazy. Root.cz [online]. 2000. [cit. 2012-02-25]. Dostupný z WWW: <http://www.root.cz/serialy/regularni-vyrazy/>. ISSN 1212-8309.

36. SINGH, Ranjit; SINGH, Kawaljeet, Dr. et al. 2010. A Descriptive Classification of Causes of Data Quality Problems in Data Warehousing. In IJCSI International Journal of Computer Science Issue, Vol. 7, Issue 3, No. 2, May 2010 [cit. 2012-02-25]. Dostupný z WWW: <http://www.ijcsi.org/papers/7-3-2-41-50.pdf>.ISSN (Online): 1694-0784.

37. SKLENÁK, V. 2001 Data, informace, znalosti a Internet. Praha. C.H.Beck, 2001. s. 3-4. ISBN 80-7179-409-0.

38. STOLOVITSKY, Neil. 2010. Managing the Project Document: The importace of an effective dokument management stratem for project success [online]. Project Smart 2000-2010. [cit. 2012-02-15] Dostupný z WWW: <http://www.projectsmart.co.uk/pdf/managing-the-project-document.pdf>.

39. SVÁTEK, Vojtěch; LABSKÝ, Martin. 2003. Objektové modely a ontologie - podobnosti a rozdíly [online]. Katedra informačního a znalostního inženýrství, Vysoká škola ekonomická v Praze, nám. W. Churchilla 4, 130 67, Praha 3. [cit. 2012-02-15]. Dostupný z WWW: <http://nb.vse.cz/~svatek/obj03fi.pdf>.

40. SVÁTEK, Vojtěch. 2002. „Ontologie a WWW“ in DATAKON 2002, Brno, 19. – 22. 10. 2002, p. 1–35, ISBN 80-210-2958-7.

41. ŠMAJS, Josef, Doc. PhDr. CSc.; KROB, Josef, PhDr., CSc. 1994. Úvod do ontologie [online]. Masarykova univerzita, Brno, 1991, 1994. Kapitola Co je ontologie? [cit. 2012-02-15]. Dostupný z WWW: <http://www.phil.muni.cz/fil/eo/skripta/index.html>. ISBN 80-210-0879-2.
 
Univerzita Karlova | Informační systém UK