Structural identification of protein-DNA interactions using machine learning
Thesis title in Czech: | Strukturní identifikace protein-DNA interakcí pomocí strojového učení |
---|---|
Thesis title in English: | Structural identification of protein-DNA interactions using machine learning |
Key words: | bioinformatika; strukturní bioinoformatika; strojové učení |
English key words: | bioinformatics; structural bioinformatics; machine learning |
Academic year of topic announcement: | 2018/2019 |
Thesis type: | Bachelor's thesis |
Thesis language: | angličtina |
Department: | Department of Cell Biology (31-151) |
Supervisor: | doc. RNDr. David Hoksza, Ph.D. |
Author: | hidden![]() |
Date of registration: | 22.01.2019 |
Date of assignment: | 22.01.2019 |
Date of electronic submission: | 13.08.2020 |
Date of proceeded defence: | 15.09.2020 |
Opponents: | Christos Feidakis, M.Sc., Ph.D. |
References |
[1] R. Krivák, D. Hoksza (2015) P2RANK: knowledge-based ligand binding site prediction using aggregated local features, AlCoB, Mexico City, Mexico, pp.: 41-52, Springer, ISBN: 978-3-319-21232-6 [2] R. Krivák, D. Hoksza (2015) Improving ligand-binding site prediction accuracy by classification of inner pocket points using local features. J. Cheminformatics 7(1), 2015 [3] Radoslav Krivák, David Hoksza. P2Rank: machine learning based tool for rapid and accurate prediction of ligand binding sites from protein structure, Journal of Cheminformatics, 10(39), 2018 [3] Liljas A., et al. (2009) Textbook Of Structural Biology, World Scientific Publishing Company |
Preliminary scope of work |
Identifikace DNA interakčních míst na povrchu proteinu pomocí strojového učení byla donedávna problematická díky nízkému počtu známých struktur protein-DNA komplexů. Strojové učení je dnes rutinně používáno pro identifikaci protein-ligand interakcí a zdá se, že růst počtu protein-DNA komplexů se známou strukutrou umožňuje aplikaci strojového učení i pro tento problém. Cílem práce je proto modifikace metody pro predikci protein-ligand interací založené na strojovém učení, p2rank, pro identifikaci protein-DNA interakcí. V rámci práce budou zmapovány stávající metody protein-DNA interakcí se zaměřením na strukturní metody a budou identifikovány datové sady, které se používají pro vyhodnocení těchto metod. Následně bude metoda p2rank obohacena o DNA-specifické deskriptory a tato modifikace pak bude otestována na dříve získaných, případně aktualizovaných, datových sadách a porovnána se stávajícími řešeními. |
Preliminary scope of work in English |
Identification of DNA interactions sites on protein's surface via machine learning was until recently problematic due to the low number of experimentally determined protein-DNA complexes. However, machine learning has been quite routinely used to prediction protein-ligand interaction sites and it seems that the growth in the number of available structures enables the use of machine learning for this task as well. The goal of the thesis is, therefore, modification of a machine learning tool from protein-ligand interaction sites detection p2rank to be able to identify protein-DNA interactions. The work will include 1) an overview of the existing methods for protein-DNA interaction sites detection (with the focus on structure-based methods), 2) extraction of data sets used for evaluation of those methods, 3) modification of the p2rank method to enable protein-DNA interaction sites detection and 4) evaluation of the modification of the previously obtained, possibly updated, data sets to compare it with the existing solutions. |