Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Přidání podpory dalších relačních databází do systému IDSM
Název práce v češtině: Přidání podpory dalších relačních databází do systému IDSM
Název v anglickém jazyce: Adding support for multiple relational databases to the IDSM system
Klíčová slova: Sémantický web|Linked Data|RDF|SPARQL|SQL|databáze
Klíčová slova anglicky: Semantic Web|Linked Data|RDF|SPARQL|SQL|database
Akademický rok vypsání: 2023/2024
Typ práce: diplomová práce
Jazyk práce:
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: RNDr. Jakub Galgonek, Ph.D.
Řešitel:
Zásady pro vypracování
Jeden z nejdůležitějších požadavků kladených na vědecká data je jejich interoperabilita. Jedním ze způsobů, jak této interoperability dosáhnout, je publikování dat pomocí technologií Sémantického webu. Konkrétně, pokud jsou data publikována v RDF formě, mohou být následně s použitím vhodného systému dotazována pomocí jazyka SPARQL. Tento jazyk podporuje federované dotazy, což umožňuje dotazovat se více zdrojů (serverů) najednou pro řešení komplexních dotazů, což jen zvyšuje tolik požadovanou interoperabilitu. Nejen z toho důvodu je v posledních letech mnoho biologických a chemických datasetů publikováno právě i v této formě.

Na Ústavu organické chemie a biochemie nyní provozujeme databázi IDSM, která integruje data o malých molekulách. Tato data jsou uložena v relační databázi a námi vyvíjený systém překládá příchozí SPARQL dotazy na SQL dotazy, které jsou následně vyhodnocovány databází PostgreSQL. V porovnání s některými konkurenčními řešeními je nedostatkem našeho systému úzké provázání právě s databází PostgreSQL. Není jej tedy možné použít v kombinaci s jinými relačními databázemi.

Úkolem diplomové práce bude přidat do tohoto systému podporu dalších databází (minimálně pro MariaDB). To bude v první fázi vyžadovat pečlivě rozdělit stávající kód (napsaný v jazyce Java) na část nezávislou na databázi (z pohledu překladače SPARQLu do SQL tedy půjde o frontend) a část závislou na konkrétní databázi (backend). V další fázi by se přidala podpora pro databázi MariaDB. Na závěr by se provedly testy srovnávající efektivnost systému při použití jednotlivých databází (srovnávací dataset je již připraven).
Seznam odborné literatury
https://www.w3.org/TR/rdf11-primer/
https://www.w3.org/TR/sparql11-query/
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00515-1
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-023-00729-5
Předběžná náplň práce
Napsaný kód se stane součástí projektu IDSM (https://idsm.elixir-czech.cz) používaného na Ústavu organické chemie a biochemie AV ČR.
 
Univerzita Karlova | Informační systém UK