Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Extraction and representation of unified metadata from files and file systems based on data formats
Název práce v češtině: Extrakce a reprezentace jednotných metadat ze souborů a souborových systémů na základě datových formátů
Název v anglickém jazyce: Extraction and representation of unified metadata from files and file systems based on data formats
Klíčová slova: RDF|formáty souborů|analýza formátu souborů|média|metadata|extrakce informací
Klíčová slova anglicky: RDF|file formats|file format analysis|media|metadata|information extraction
Akademický rok vypsání: 2021/2022
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. Jakub Klímek, Ph.D.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 03.03.2022
Datum zadání: 03.03.2022
Datum potvrzení stud. oddělením: 29.03.2022
Datum a čas obhajoby: 06.06.2023 09:00
Datum odevzdání elektronické podoby:24.04.2023
Datum odevzdání tištěné podoby:09.05.2023
Datum proběhlé obhajoby: 06.06.2023
Oponenti: RNDr. Martin Svoboda, Ph.D.
 
 
 
Zásady pro vypracování
Many Internet archives of digital resources, such as the Internet Archive [1] or Wikimedia Commons [2], provide ways of annotating the data but do not offer automated means of extracting and representing structures stored within the data itself, for example, the contents of file archives, image or music metadata, or resources within executable files, in a non-proprietary form.
The student will get familiar with the RDF data model [3] and the standards for representation of media types [4] and identification of resources on the Internet [5][6][7].
The student will design, implement, document, evaluate and test an extensible tool for representing and describing data structures and metadata obtained via analysis of files based on their file format and content, supporting selected file formats. The result of the analysis will be represented in RDF, with emphasis on standardized or prevalent vocabularies [8]. The thesis will also include a couple of use cases for such a representation of the contents of files.
Seznam odborné literatury
[1] Internet Archive: Digital Library of Free & Borrowable Books, Movies, Music & Wayback Machine, https://archive.org/
[2] Wikimedia Commons, https://commons.wikimedia.org/
[3] RDF 1.1 Concepts and Abstract Syntax, W3C, https://www.w3.org/TR/rdf11-concepts/
[4] Freed, N. and N. Borenstein, "Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types", RFC 2046, DOI 10.17487/RFC2046, November 1996, <https://www.rfc-editor.org/info/rfc2046>.
[5] Berners-Lee, T., Fielding, R., and L. Masinter, "Uniform Resource Identifier (URI): Generic Syntax", STD 66, RFC 3986, DOI 10.17487/RFC3986, January 2005, <https://www.rfc-editor.org/info/rfc3986>.
[6] Masinter, L., "The "data" URL scheme", RFC 2397, DOI 10.17487/RFC2397, August 1998, <https://www.rfc-editor.org/info/rfc2397>.
[7] Farrell, S., Kutscher, D., Dannewitz, C., Ohlman, B., Keranen, A., and P. Hallam-Baker, "Naming Things with Hashes", RFC 6920, DOI 10.17487/RFC6920, April 2013, <https://www.rfc-editor.org/info/rfc6920>.
[8] Schema.org, https://schema.org/
 
Univerzita Karlova | Informační systém UK