Structural identification of protein-DNA interactions using machine learning
Název práce v češtině: | Strukturní identifikace protein-DNA interakcí pomocí strojového učení |
---|---|
Název v anglickém jazyce: | Structural identification of protein-DNA interactions using machine learning |
Klíčová slova: | bioinformatika; strukturní bioinoformatika; strojové učení |
Klíčová slova anglicky: | bioinformatics; structural bioinformatics; machine learning |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | bakalářská práce |
Jazyk práce: | angličtina |
Ústav: | Katedra buněčné biologie (31-151) |
Vedoucí / školitel: | doc. RNDr. David Hoksza, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 22.01.2019 |
Datum zadání: | 22.01.2019 |
Datum odevzdání elektronické podoby: | 13.08.2020 |
Datum proběhlé obhajoby: | 15.09.2020 |
Oponenti: | Christos Feidakis, M.Sc., Ph.D. |
Seznam odborné literatury |
[1] R. Krivák, D. Hoksza (2015) P2RANK: knowledge-based ligand binding site prediction using aggregated local features, AlCoB, Mexico City, Mexico, pp.: 41-52, Springer, ISBN: 978-3-319-21232-6 [2] R. Krivák, D. Hoksza (2015) Improving ligand-binding site prediction accuracy by classification of inner pocket points using local features. J. Cheminformatics 7(1), 2015 [3] Radoslav Krivák, David Hoksza. P2Rank: machine learning based tool for rapid and accurate prediction of ligand binding sites from protein structure, Journal of Cheminformatics, 10(39), 2018 [3] Liljas A., et al. (2009) Textbook Of Structural Biology, World Scientific Publishing Company |
Předběžná náplň práce |
Identifikace DNA interakčních míst na povrchu proteinu pomocí strojového učení byla donedávna problematická díky nízkému počtu známých struktur protein-DNA komplexů. Strojové učení je dnes rutinně používáno pro identifikaci protein-ligand interakcí a zdá se, že růst počtu protein-DNA komplexů se známou strukutrou umožňuje aplikaci strojového učení i pro tento problém. Cílem práce je proto modifikace metody pro predikci protein-ligand interací založené na strojovém učení, p2rank, pro identifikaci protein-DNA interakcí. V rámci práce budou zmapovány stávající metody protein-DNA interakcí se zaměřením na strukturní metody a budou identifikovány datové sady, které se používají pro vyhodnocení těchto metod. Následně bude metoda p2rank obohacena o DNA-specifické deskriptory a tato modifikace pak bude otestována na dříve získaných, případně aktualizovaných, datových sadách a porovnána se stávajícími řešeními. |
Předběžná náplň práce v anglickém jazyce |
Identification of DNA interactions sites on protein's surface via machine learning was until recently problematic due to the low number of experimentally determined protein-DNA complexes. However, machine learning has been quite routinely used to prediction protein-ligand interaction sites and it seems that the growth in the number of available structures enables the use of machine learning for this task as well. The goal of the thesis is, therefore, modification of a machine learning tool from protein-ligand interaction sites detection p2rank to be able to identify protein-DNA interactions. The work will include 1) an overview of the existing methods for protein-DNA interaction sites detection (with the focus on structure-based methods), 2) extraction of data sets used for evaluation of those methods, 3) modification of the p2rank method to enable protein-DNA interaction sites detection and 4) evaluation of the modification of the previously obtained, possibly updated, data sets to compare it with the existing solutions. |