Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Generování proteinových sekvencí s danou charakteristikou
Thesis title in Czech: Generování proteinových sekvencí s danou charakteristikou
Thesis title in English: Generation of protein sequences with a given characteristic
Key words: bioinformatika|velké jazykové modely|proteinové inženýrství
English key words: bioinformatics|large language models|protein engineering
Academic year of topic announcement: 2023/2024
Thesis type: Bachelor's thesis
Thesis language:
Department: Department of Software Engineering (32-KSI)
Supervisor: doc. RNDr. David Hoksza, Ph.D.
Author: Hugo Hrbáň - assigned and confirmed by the Study Dept.
Date of registration: 12.04.2024
Date of assignment: 12.04.2024
Confirmed by Study dept. on: 12.04.2024
Guidelines
Cílem práce je studium modelů pro generování validních proteinových sekvencí s cílem omezit generování na sekvence z daných proteinových rodin. Součástí práce bude studium existujících jazykových modelů, jejich případná modifikace a vývoj metod pro validaci generovaných sekvencí. Výstupem práce by měl být též software schopný generovat sekvence z vybraných rodin.
References
[1] Jones N.: An Introduction to Bioinformatics Algorithms, The MIT Press, 2004
[2] Liljas A., et al.: Textbook Of Structural Biology, World Scientific Publishing Company, 2009
[3] Ferruz, Noelia, Steffen Schmidt, and Birte Höcker. 2022. “ProtGPT2 Is a Deep Unsupervised Language Model for Protein Design.” Nature Communications 13 (1): 4348. https://doi.org/10.1038/s41467-022-32007-7.
[4] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html