Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Generování proteinových sekvencí s danou charakteristikou
Název práce v češtině: Generování proteinových sekvencí s danou charakteristikou
Název v anglickém jazyce: Generation of protein sequences with a given characteristic
Klíčová slova: bioinformatika|velké jazykové modely|proteinové inženýrství
Klíčová slova anglicky: bioinformatics|large language models|protein engineering
Akademický rok vypsání: 2023/2024
Typ práce: bakalářská práce
Jazyk práce: čeština
Ústav: Katedra softwarového inženýrství (32-KSI)
Vedoucí / školitel: doc. RNDr. David Hoksza, Ph.D.
Řešitel: Bc. Hugo Hrbáň - zadáno a potvrzeno stud. odd.
Datum přihlášení: 12.04.2024
Datum zadání: 12.04.2024
Datum potvrzení stud. oddělením: 12.04.2024
Datum a čas obhajoby: 28.06.2024 09:00
Datum odevzdání elektronické podoby:09.05.2024
Datum odevzdání tištěné podoby:09.05.2024
Datum proběhlé obhajoby: 28.06.2024
Oponenti: doc. RNDr. Jakub Lokoč, Ph.D.
 
 
 
Zásady pro vypracování
Cílem práce je studium modelů pro generování validních proteinových sekvencí s cílem omezit generování na sekvence z daných proteinových rodin. Součástí práce bude studium existujících jazykových modelů, jejich případná modifikace a vývoj metod pro validaci generovaných sekvencí. Výstupem práce by měl být též software schopný generovat sekvence z vybraných rodin.
Seznam odborné literatury
[1] Jones N.: An Introduction to Bioinformatics Algorithms, The MIT Press, 2004
[2] Liljas A., et al.: Textbook Of Structural Biology, World Scientific Publishing Company, 2009
[3] Ferruz, Noelia, Steffen Schmidt, and Birte Höcker. 2022. “ProtGPT2 Is a Deep Unsupervised Language Model for Protein Design.” Nature Communications 13 (1): 4348. https://doi.org/10.1038/s41467-022-32007-7.
[4] Madani, Ali, et al. "Large language models generate functional protein sequences across diverse families." Nature Biotechnology 41.8 (2023): 1099-1106.
 
Univerzita Karlova | Informační systém UK