Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 390)
Detail práce
   Přihlásit přes CAS
Srovnání podobností hmotnostních spekter a struktur malých molekul
Název práce v češtině: Srovnání podobností hmotnostních spekter a struktur malých molekul
Název v anglickém jazyce: Comparison of similarities of mass spectra and structures of small molecules
Klíčová slova: strukturní podobnost, hmotnostní spektrometrie, Spec2Vec, kosinová podobnost, fingerprint, MoNA (MassBank of North America), CDK (Chemistry Development Kit), RDKit, MatchMS, malé molekuly, bioinformatika
Klíčová slova anglicky: structural similarity, mass spectrometry, Spec2Vec, cosine similarity, fingerprint, MoNA (MassBank of North America), CDK (Chemistry Development Kit), RDKit, MatchMS, small molecules, bioinformatics
Akademický rok vypsání: 2023/2024
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Katedra buněčné biologie (31-151)
Vedoucí / školitel: RNDr. Jakub Galgonek, Ph.D.
Řešitel: Bc. Viktorie Malíčková - zadáno a potvrzeno stud. odd.
Datum přihlášení: 15.01.2024
Datum zadání: 15.01.2024
Datum potvrzení stud. oddělením: 31.01.2024
Datum odevzdání elektronické podoby:29.04.2024
Datum proběhlé obhajoby: 19.06.2024
Oponenti: Mgr. Vít Škrhák
 
 
 
Předběžná náplň práce
Jednou z klíčových vlastností databáze malých molekul je schopnost hledat molekuly podle jejich
struktury. To v sobě zahrnuje jak hledání molekul podle zadané podstruktury, tak hledání podle
strukturní podobnosti. Vzhledem k tomu, že neexistuje žádná široce uznávaná shoda jak strukturní
podobnost měřit, existuje velké množství různých podobnostních měr.
Pokud není struktura molekuly ve vzorku známa, může při jeho určování pomoci hmotnostní
spektrometrie. Při jejím použití je užitečné mít možnost prohledávat databázi na základě podobnosti
hmotnostních spekter. I v tomto případě existuje mnoho podobnostních měr, jednou z široce
používanou je například kosinová podobnost.
Námi provozovaná databáze IDSM (Integrated Database of Small Molecules) aktuálně obsahuje přes
sto miliónů molekul, které umožňuje hledat (mimo jiné) podle strukturní podobnosti. V další fázi
plánujeme integrovat také hmotnostní spektra malých molekul a umožnit i v nich hledat podle
podobnosti. Otázkou je, jak budou navzájem tato dvě podobnostní hledání korelovat, přičemž je však
žádoucí, aby tato korelace byla vysoká.
Cílem práce je změřit, jak podobnost hmotnostních spekter koreluje s různě definovanými
strukturními podobnostmi. V teoretické části se práce zaměří na výběr a popis jednotlivých
podobnostních měr a jejich vlastností, přičemž se zaměří hlavně na podobnosti používané na
molekulách biologického významu. V praktické části poté změří jednotlivé korelace a ve spojení
s teoretickou částí se pokusí odvodit, které vlastnosti strukturních podobností jsou klíčové pro jejich
dobrou korelaci s podobností hmotnostních spekter.
Měření bude probíhat nad databází MoNA (MassBank of North America), která v sobě integruje více
jak dva miliony spekter a pro každé z nich obsahuje i strukturu měřené molekuly. V případě potřeby
bude možné použít i databázi ISDB (In Silico Spectral Databases of Natural Products). Práce se zaměří
převážně na strukturní podobnostní míry z projektu CDK (Chemistry Development Kit), RDKit a pak na
podobností míru používanou aktuálně v IDSM. Podobnost hmotnostních spekter bude měřena
pomocí Matchms.
 
Univerzita Karlova | Informační systém UK