Využití kombinovaných sekvenčních a strukturních vlastností pro predikci protein-ligand vazebných míst
Thesis title in Czech: | Využití kombinovaných sekvenčních a strukturních vlastností pro predikci protein-ligand vazebných míst |
---|---|
Thesis title in English: | Using combined sequence and structural features to predict protein-ligand binding sites |
Key words: | bioinformatika|proteinová sekvence|proteinová struktura|strojové učení |
English key words: | bioinforamtics|protein sequence|protein structure|machine learning |
Academic year of topic announcement: | 2023/2024 |
Thesis type: | diploma thesis |
Thesis language: | čeština |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | doc. RNDr. David Hoksza, Ph.D. |
Author: | hidden![]() |
Date of registration: | 22.01.2024 |
Date of assignment: | 26.01.2024 |
Confirmed by Study dept. on: | 26.01.2024 |
Date and time of defence: | 11.06.2024 09:00 |
Date of electronic submission: | 02.05.2024 |
Date of submission of printed version: | 02.05.2024 |
Date of proceeded defence: | 11.06.2024 |
Opponents: | Mgr. Petr Škoda, Ph.D. |
Guidelines |
Detekce protein-ligand vazebných míst je nejen důležitým nástrojem pro pochopení funkce proteinů, ale je využitelný i při detekci malých molekul schopných modifikovat funkci proteinu tj. nachází uplatnění i v rámci počítačového vývoje léčiv. Protein-ligand vazebná místa se dají detekovat jak na úrovni proteinové sekvence, tak na úrovni její 3D struktury. Donedávna platilo, že čistě sekvenční metody detekce, tj. vstupem detekční metody je čistě proteinová sekvence, jsou inferiorní metodám strukturní. To se ale mění s příchodem proteinových jazykových modelů, které, zdá se, dokáží v mnoha případech predikovat vazebná místa podobně dobře jako metody, které mají k dispozici 3D strukturu proteinu. Cílem této práce je za prvé porovnat state-of-the-art metody sekvenční (tj. založené na jazykových modelech) a strukturní (zde bude využita metoda P2Rank, vyvinuta dříve na MFF UK). Druhá část práce se pak zaměří na návrh způsobů obohacení jazykových modelů strukturními rysy a naopak. Tyto přístupy pak budou vyhodnoceny v kontextu sekvenční a strukturní baseliny. |
References |
[1] Krivák, R. & Hoksza, D. (2018). "P2Rank: machine learning based tool for rapid and accurate prediction of ligand binding sites from protein structure." Journal of cheminformatics, 10, 1, BioMed Central
[2] Hoksza, David, and Hamza Gamouh. "Exploration of protein sequence embeddings for protein-ligand binding site detection." 2022 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE, 2022. [3] Bepler, Tristan, and Bonnie Berger. "Learning the protein language: Evolution, structure, and function." Cell systems 12.6 (2021): 654-669. |