Generování proteinových sekvencí s danou charakteristikou
Název práce v češtině: | Generování proteinových sekvencí s danou charakteristikou |
---|---|
Název v anglickém jazyce: | Generation of protein sequences with a given characteristic |
Klíčová slova: | bioinformatika|velké jazykové modely|proteinové inženýrství |
Klíčová slova anglicky: | bioinformatics|large language models|protein engineering |
Akademický rok vypsání: | 2023/2024 |
Typ práce: | bakalářská práce |
Jazyk práce: | čeština |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | doc. RNDr. David Hoksza, Ph.D. |
Řešitel: | Bc. Hugo Hrbáň - zadáno a potvrzeno stud. odd. |
Datum přihlášení: | 12.04.2024 |
Datum zadání: | 12.04.2024 |
Datum potvrzení stud. oddělením: | 12.04.2024 |
Datum a čas obhajoby: | 28.06.2024 09:00 |
Datum odevzdání elektronické podoby: | 09.05.2024 |
Datum odevzdání tištěné podoby: | 09.05.2024 |
Datum proběhlé obhajoby: | 28.06.2024 |
Oponenti: | doc. RNDr. Jakub Lokoč, Ph.D. |
Zásady pro vypracování |
Cílem práce je studium modelů pro generování validních proteinových sekvencí s cílem omezit generování na sekvence z daných proteinových rodin. Součástí práce bude studium existujících jazykových modelů, jejich případná modifikace a vývoj metod pro validaci generovaných sekvencí. Výstupem práce by měl být též software schopný generovat sekvence z vybraných rodin. |
Seznam odborné literatury |
[1] Jones N.: An Introduction to Bioinformatics Algorithms, The MIT Press, 2004
[2] Liljas A., et al.: Textbook Of Structural Biology, World Scientific Publishing Company, 2009 [3] Ferruz, Noelia, Steffen Schmidt, and Birte Höcker. 2022. “ProtGPT2 Is a Deep Unsupervised Language Model for Protein Design.” Nature Communications 13 (1): 4348. https://doi.org/10.1038/s41467-022-32007-7. [4] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106. |