Srovnání podobností hmotnostních spekter a struktur malých molekul
Název práce v češtině: | Srovnání podobností hmotnostních spekter a struktur malých molekul |
---|---|
Název v anglickém jazyce: | Comparison of similarities of mass spectra and structures of small molecules |
Klíčová slova: | strukturní podobnost, hmotnostní spektrometrie, Spec2Vec, kosinová podobnost, fingerprint, MoNA (MassBank of North America), CDK (Chemistry Development Kit), RDKit, MatchMS, malé molekuly, bioinformatika |
Klíčová slova anglicky: | structural similarity, mass spectrometry, Spec2Vec, cosine similarity, fingerprint, MoNA (MassBank of North America), CDK (Chemistry Development Kit), RDKit, MatchMS, small molecules, bioinformatics |
Akademický rok vypsání: | 2023/2024 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Katedra buněčné biologie (31-151) |
Vedoucí / školitel: | RNDr. Jakub Galgonek, Ph.D. |
Řešitel: | Bc. Viktorie Malíčková - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 15.01.2024 |
Datum zadání: | 15.01.2024 |
Datum potvrzení stud. oddělením: | 31.01.2024 |
Datum odevzdání elektronické podoby: | 29.04.2024 |
Datum proběhlé obhajoby: | 19.06.2024 |
Oponenti: | Mgr. Vít Škrhák |
Předběžná náplň práce |
Jednou z klíčových vlastností databáze malých molekul je schopnost hledat molekuly podle jejich struktury. To v sobě zahrnuje jak hledání molekul podle zadané podstruktury, tak hledání podle strukturní podobnosti. Vzhledem k tomu, že neexistuje žádná široce uznávaná shoda jak strukturní podobnost měřit, existuje velké množství různých podobnostních měr. Pokud není struktura molekuly ve vzorku známa, může při jeho určování pomoci hmotnostní spektrometrie. Při jejím použití je užitečné mít možnost prohledávat databázi na základě podobnosti hmotnostních spekter. I v tomto případě existuje mnoho podobnostních měr, jednou z široce používanou je například kosinová podobnost. Námi provozovaná databáze IDSM (Integrated Database of Small Molecules) aktuálně obsahuje přes sto miliónů molekul, které umožňuje hledat (mimo jiné) podle strukturní podobnosti. V další fázi plánujeme integrovat také hmotnostní spektra malých molekul a umožnit i v nich hledat podle podobnosti. Otázkou je, jak budou navzájem tato dvě podobnostní hledání korelovat, přičemž je však žádoucí, aby tato korelace byla vysoká. Cílem práce je změřit, jak podobnost hmotnostních spekter koreluje s různě definovanými strukturními podobnostmi. V teoretické části se práce zaměří na výběr a popis jednotlivých podobnostních měr a jejich vlastností, přičemž se zaměří hlavně na podobnosti používané na molekulách biologického významu. V praktické části poté změří jednotlivé korelace a ve spojení s teoretickou částí se pokusí odvodit, které vlastnosti strukturních podobností jsou klíčové pro jejich dobrou korelaci s podobností hmotnostních spekter. Měření bude probíhat nad databází MoNA (MassBank of North America), která v sobě integruje více jak dva miliony spekter a pro každé z nich obsahuje i strukturu měřené molekuly. V případě potřeby bude možné použít i databázi ISDB (In Silico Spectral Databases of Natural Products). Práce se zaměří převážně na strukturní podobnostní míry z projektu CDK (Chemistry Development Kit), RDKit a pak na podobností míru používanou aktuálně v IDSM. Podobnost hmotnostních spekter bude měřena pomocí Matchms. |