Sekundární struktura proteinu popisuje lokální uspořádání sousedících aminokyselin určené vodíkovými vazbami. Lze ji tedy využít, mimo jiné, jako mezikrok pro určení celého prostorového uspořádání proteinu, jehož znalost je klíčovou informací při zkoumaní vlastností a funkce daného proteinu, a tedy hraje důležitou roli např. při návrhu léku či enzymů. Strukturu proteinů je možné určit experimentálně, takový postup je ale nákladný a časově náročný, což dává prostor pro vznik programů, které dokáží strukturu předpovídat. Cílem této práce je vývoj vlastní implementace hluboké neuronové sítě pro predikci sekundární struktury proteinu na základě jeho primární struktury, tedy sekvence jednotlivých aminokyselin, ze kterých je protein složen. Součástí práce bude také srovnání se state-of-the-art metodami pro predikci sekundární struktury a zkoumaní vlivu různých parametrizací neuronové sítě a metod předzpracování vstupu.
Seznam odborné literatury
[1] Liljas A., et al. (2009) Textbook Of Structural Biology, World Scientific Publishing Company
[2] Friedman, Jerome, Trevor Hastie, and Robert Tibshirani (2001) The elements of statistical learning. Vol. 1. Springer, Berlin: Springer series in statistics
[3] Ian Goodfellow and Yoshua Bengio and Aaron Courville (2016) Deep Learning, MIT Press
Předběžná náplň práce
Protein secondary structure describes local geometry of neighboring amino acids defined by hydrogen bonds. The secondary structure can be used as an intermediate step for determination of protein's three-dimensional structure, which is a crucial information for analyzing properties and function of a given protein and therefore it is an important part of drug and enzyme design. Experimental determination of the protein structure is possible, but it is time-consuming and expensive. That increases a need for protein structure prediction tools. The goal of this thesis is to implement a deep neural network for secondary structure prediction using primary structure, i.e. sequence of protein's amino acids. The thesis will include comparison with current state-of-the-art methods and an examination of network fine-tuning and preprocessing methods.