Generování proteinových sekvencí s danou charakteristikou
Thesis title in Czech: | Generování proteinových sekvencí s danou charakteristikou |
---|---|
Thesis title in English: | Generation of protein sequences with a given characteristic |
Key words: | bioinformatika|velké jazykové modely|proteinové inženýrství |
English key words: | bioinformatics|large language models|protein engineering |
Academic year of topic announcement: | 2023/2024 |
Thesis type: | Bachelor's thesis |
Thesis language: | čeština |
Department: | Department of Software Engineering (32-KSI) |
Supervisor: | doc. RNDr. David Hoksza, Ph.D. |
Author: | Bc. Hugo Hrbáň - assigned and confirmed by the Study Dept. |
Date of registration: | 12.04.2024 |
Date of assignment: | 12.04.2024 |
Confirmed by Study dept. on: | 12.04.2024 |
Date and time of defence: | 28.06.2024 09:00 |
Date of electronic submission: | 09.05.2024 |
Date of submission of printed version: | 09.05.2024 |
Date of proceeded defence: | 28.06.2024 |
Opponents: | doc. RNDr. Jakub Lokoč, Ph.D. |
Guidelines |
Cílem práce je studium modelů pro generování validních proteinových sekvencí s cílem omezit generování na sekvence z daných proteinových rodin. Součástí práce bude studium existujících jazykových modelů, jejich případná modifikace a vývoj metod pro validaci generovaných sekvencí. Výstupem práce by měl být též software schopný generovat sekvence z vybraných rodin. |
References |
[1] Jones N.: An Introduction to Bioinformatics Algorithms, The MIT Press, 2004
[2] Liljas A., et al.: Textbook Of Structural Biology, World Scientific Publishing Company, 2009 [3] Ferruz, Noelia, Steffen Schmidt, and Birte Höcker. 2022. “ProtGPT2 Is a Deep Unsupervised Language Model for Protein Design.” Nature Communications 13 (1): 4348. https://doi.org/10.1038/s41467-022-32007-7. [4] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106. |