velikost textu

Side-chain Side-chain Interactions in Proteins

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Side-chain Side-chain Interactions in Proteins
Název v češtině:
Interakce mezi vedlejšími řetězci aminokyselin v proteinech
Typ:
Disertační práce
Autor:
Mgr. Karel Berka, Ph.D.
Školitel:
prof. Ing. Pavel Hobza, DrSc.
Oponenti:
RNDr. Lubomír Rulíšek, Ph.D.
doc. RNDr. Michal Otyepka, Ph.D.
Id práce:
83662
Fakulta:
Přírodovědecká fakulta (PřF)
Pracoviště:
Katedra fyzikální a makromol. chemie (31-260)
Program studia:
Modelování chemických vlastností nano- a biostruktur (P1415)
Obor studia:
-
Přidělovaný titul:
Ph.D.
Datum obhajoby:
16. 2. 2010
Výsledek obhajoby:
Prospěl/a
Informace o neveřejnosti:
Příloha práce byla vyloučena ze zveřejnění.
Jazyk práce:
Angličtina
Abstrakt:
Universita Karlova v Praze Přírodovědecká fakulta Katedra fyzikální a makromolekulární chemie Interakce mezi vedlejšími řetězci aminokyselin v proteinech Souhrn disertační práce RNDr. Karel Berka Školitelé: Prof. Ing. Pavel Hobza, DrSc., FRSC RNDr. Jiří Vondrášek, CSc. Ústav organické chemie a biochemie AV ČR Centrum biomolekul a komplexních molekulárních systémů Praha 2009 Úvod Proteiny jsou univerzální a nejpoužívanější buněčné nástroje. Ve schopnosti katalyzovat chemické reakce se jim v přírodě nic nevyrovná. Mají významnou funkci v metabolismu, v buněčné signalizaci, podílí se na procesu ukládání genetické informace a tvoří i mechanickou oporu buňky. Ohromné množství funkcí proteinů s sebou nese i ohromné množství jejich tvarů a struktur. Přesto je každý protein sestaven z jednoduchých stavebních prvků – aminokyselin. Každá z nich má mnoho možností, jak interagovat se svými sousedy. Proměnlivost struktury proteinů pak jedině závisí na sekvenci řazení aminokyselin. Charakter a relativní síla jednotlivých interakcí mezi aminokyselinami se experimentálně stanovuje obtížně, protože je těchto interakcí v každém proteinu příliš mnoho. Na druhou stranu jsou metody teoretické chemie na takovýto úkol dobře přizpůsobeny a mohou vnést alespoň trochu světla do informací o struktuře, stabilitě a původu těchto interakcí. Cílem této disertační práce je popis interakcí mezi vedlejšími řetězci aminokyselin v proteinech s použitím pokročilých metod současné teoretické chemie. Snažili jsme se především nalézt odpovědi na následující otázky: 1. Jak silné jsou tyto interakce v hydrofobním jádře proteinu? 2. Jak silné jsou další stabilizující interakce v proteinech například v solných můstcích? 3. Z čeho pramení neobvykle silné interakce prolinu s tryptofanem? 4. Které výpočetní metody jsou dostatečně efektivní a přitom přesné, aby bylo možné je využít pro popis interakcí vedeljších řetězců aminokyselin? 5. Co dalšího se můžeme dozvědět z dekompozice interakčních energií pomocí metody DFT-SAPT? 6. Jak rozdílné mohou být interakcí mezi vedlejšími řetězci aminokyselin v proteinech? 7. Jak dobře jsou tyto interakce popisovány pomocí běžně používané metody empirického potenciálu, tzv. force field metody? 8. Jak se změní interakční energie v přítomnosti rozpouštědla? 9. Jakou distribuci mají interakční energie mezi vedlejšími řetězci aminokyselin v proteinech a co přesně představují representační páry aminokyselin z Atlasu interakcí vedlejších řetězců aminokyselin (Atlas of Protein Side-Chain Interactions)? 7 Metody Metodická část této práce se skládá ze dvou částí: (a) výběru vhodného modelu zkoumaných interakcí a (b) výběru použitelné výpočetní metody schopné dostatečně přesného výpočtu interakčních energií. Výběr vhodných modelů Pro studium interakcí uvnitř hydrofobního jádra proteinu a pro studium solných můstku jsme použili krystalových struktur malého proteinu rubredoxinu. Neobvykle silné interakce mezi prolinem a tryptofanem jsme zkoumali na strukturách miniproteinu tryptofanové klece a vazebných domén EVH1 a GYF. Největší část práce byla založena na datech převzatých z Atlasu interakcí vedlejších řetězců aminokyselin (Atlas of Protein Side-Chain Interactions). Atlas interakcí vedlejších řetězců aminokyselin obsahuje data o vzájemné poloze vedlejších řetězců aminokyselin pro každou jejich kombinaci. Pomocí shlukové analýzy jsou pak v Atlasu označena preferenční místa a každý shluk je představován jednou reprezentativní strukturou interakčního páru. Pro studium rychlosti a přesnosti výpočetních metod jsme použili subset 24 párů, který obsahoval všech 20 různých aminokyselin ve všech typických interakcích. Později jsme použili i matici všech (20×20) reprezentačních párů a nakonec i všechny kontakty mezi vybranými vedlejšími řetězci aminokyselin, které Atlas obsahoval. Výběr výpočetních metod Použili jsme několik výpočetních metod, jak přesnější kvantověchemické či semiempirické metody, tak rychlejší metody empirického potenciálu. Jako nejpřesnější metodu, se kterou jsme porovnávali kvalitu všech ostatních, jsme použili metodu CCSD(T)|CBS. Kvantověchemické výpočty byly prováděny pomocí rozhraní „cuby“ napsaného dr. Janem Řezáčem. Většina kvantověchemických výpočtů (RI- DFT-D, RI-MP2) byla provedena v programu Turbomole 5.8. Dekompozice interakčních energií byly prováděny metodou DFT-SAPT za pomoci dalších dvou výpočetních programů – Gaussian 03 a Molpro 2006. Molpro 2006 byl také použit při výpočtech metodou CCSD(T). Semiempirické výpočty byly také prováděny pomocí rozhraní „cuby“. Výpočty metodou PM6 byly prováděny v programu MOPAC2007 a korekce pro disperzi a vodíkové vazby byly přidávány pomocí kódu v ruby od dr. Jana Řezáče. Výpočty metodou SCC-DFTB-D se prováděly v programu dftb+. 8 Všechny výpočty metodami empirického potenciálu byly provedeny v programovém balíku Gromacs 3.3. Topologie a parciální náboje aminokyselin byly převzaty z Amberportu od Sorina a Pandeho a byly upraveny tak, aby představovaly pouze vedlejší řetězce aminokyselin. Tímto způsobem jsme upravili empirické potenciály parm03 a OPLS- AA/L. Výsledky Pomocí metody DFT-SAPT byly vypočteny interakční energie mezi všemi kontakty vedlejších řetězců aminokyselin v hydrofobním jádře rubredoxinu. Největší příspěvek k celkové stabilizaci jádra poskytují aromatické zbytky F30, F49 a W37, následované alifatickým zbytkem L33. Většina stabilizační energie pochází z disperzního příspěvku, který má podobný profil jako celková stabilizační energie. K termostabilitě proteinů přispívají rovněž solné můstky, kterých je v termofilních proteinech více než v proteinech mesofilních. Pomocí různých metod byly vypočteny interakční energie šesti solných můstků z mesofilních i termofilních variant rubredoxinu. Přestože je interakční energie solných můstků ve vakuu porovnatelná s kovalentní vazbou, v přítomnosti polarizovatelného okolí nebo při deionizaci vlivem změny pH interakce zeslábne, až zanikne. Termostabilita proteinu může být ovlivněna i tzv. „prolinovým pravidlem“. To uvádí, že vložení prolinů (P) do vhodně zvolených pozic zvýší termostabilitu proteinu. Jedním z vysvětlení tohoto chování může být neobyčejně silná interakce prolinu s aromatickými zbytky. Interakce mezi prolinem a tryptofanem může být přisouzena příznivým elektrostatickým interakcím dusíkového atomu prolinu a také silnému disperznímu kontaktu mezi kruhy tryptofanu a prolinu. Set 24 nejtypičtějších párů vedlejších řetězců aminokyselin byl vybrán z Atlasu interakcí vedlejších řetězců aminokyselin pro porovnání jednotlivých výpočetních metod. Pro tento setu byly spočítány interakční energie různými metodami a porovnány s výsledky získanými nejpřesnější metodou CCSD(T)|CBS. Byla nalezena širokou shodu mezi metodami, přestože rozpětí interakčních energií bylo extrémně široké – přes dva řády. Nejefektivnější metodou byla metoda RI-DFT-D. Rychlejší semiempirické metody PM6-DH a SCC-DFTB-D byly méně přesné, ale stále přesnější než metody empirického potenciálu parm03 a OPLS-AA/L. Dekompozice interakčních energií pomocí metody DFT-SAPT na použitém reprezentativním setu typických interakcí vedlejších řetězců 9 ukázala, že polární zbytky interagují především elektrostaticky, zatímco u nepolárních zbytků převažuje disperze. Metodou RI-DFT-D byla vypočítána interakční energie pro všech 20×20 reprezentativních párů z Atlasu interakcí vedlejších řetězců aminokyselin. Většina těchto interakcí je ve vakuu přitažlivá. Jejich rozdíly jak v síle, tak v množství jsou enormní. Tato variabilita klade velké požadavky na přesnost metod používaných na výpočet interakčních energií. Výpočetní metody empirického potenciálu jsou nejpoužívanější metody pro simulace proteinů. Podle jejich chování na matici všech kontaktů lze říci, že jsou schopny hrubého popisu interakčních energií, ale trpí příliš strmou repulzní interakcí, což se u některých interagujících párů může projevit. Změna interakčních energií pro páry vedlejších řetězců aminokyselin v polarizovatelném prostředí byla vypočítána pomocí solvatačních modelů PCM a COSMO se dvěma rozdílnými dielektrickými konstantami (ε = 4 pro napodobení proteinu a ε = 80 pro napodobení vodného prostředí). Vodné prostředí, případně prostředí proteinu značně posilovalo vliv zbytků aromatického a alifatického charakteru na úkor polárních a nabitých reziduí. Pro všechny páry obsahující tryptofan z databáze Atlasu byly vypočítány interakční energie. Distribuce interakčních energií se výrazně liší od distribuce interakčních energií pro shluk, z nějž byl reprezentativní pár vybírán. Většina kontaktů v databázi je náhodnějších a slabších než ty, které vybrala shluková analýza. Zdá se tedy, že reprezentativní páry, které se vyskytují v Atlasu interakcí vedlejších řetězců aminokyselin, jsou dostatečně rozpoznatelné jak geometricky tak i energeticky. Mohou tedy reprezentantovat strukturně a funkčně důležité interakce. 10 Závěry 1. Většina interakční energie v hydrofobním jádře rubredoxinu pochází z disperzního příspěvku. Interakce mezi zbytky v hydrofobním jádře jsou také většinou silnější, než interakce mezi stejnými zbytky mimo hydrofobní jádro. 2. Interakční energie solného můstku natolik slábne v přítomnosti polarizovatelného okolí, že může zcela zaniknout. 3. Interakce mezi prolinem a tryptofanem mohou být silné jako interakce mezi dvěma aromatickými zbytky díky přítomnosti heteroatomu, který zesiluje elektrostatické interakce, a díky cyklickému uspořádání, které zesiluje disperzní interakci. 4. Porovnáním metod na zkušebním setu jsme prokázali, že nejefektivnější metoda s dostatečnou přesností je metoda RI-DFT-D. Levnější semiempirické metody PM6-DH a SCC-DFTB-D byly méně přesné, ale stále přesnější než metody emprického potenciálu parm03 a OPLS-AA/L. Výpočty na zkušebním setu byly publikovány online v databázi www.begdb.com. 5. Dekompozice interakčních energií s pomocí metody DFT-SAPT ukázala, že polární zbytky interagují především elektrostaticky, zatímco u nepolárních zbytků převažuje disperze. 6. Rozdíly v síle a v množství jednotlivých interakcí vedlejších řetězců aminokyselin jsou enormní – v obou případech jde o rozdíly až o dva řády. 7. Metody empirického potenciálu jsou schopny hrubého popisu interakčních energií, ale trpí příliš strmou repulzí, což se u některých interagujících párů může projevit. 8. Vodné prostředí, případně prostředí proteinu, snižuje interakční energie pro nabité a polární zbytky, zatímco aromatické a alifatické zbytky nejsou tolik ovlivněny. 9. Celková distribuce interakčních energií pro všechny páry jedné dvojice zbytků není ani Gaussovská, ani Boltzmannovská. Většina kontaktů v databázi je náhodnější a slabší než ty, které vybrala shluková analýza. Zdá se tedy, že reprezentativní páry, které se vyskytují v Atlasu interakcí vedlejších řetězců aminokyselin, jsou dostatečně rozpoznatelné jak geometricky tak i energeticky. Mohou tedy reprezentovat interakce důležité strukturně i funkčně. 11
Abstract v angličtině:
Charles University in Prague Faculty of Science Department of Physical and Macromolecular Chemistry Side-chain Side-chain Interactions in Proteins Doctoral Thesis Abstract RNDr. Karel Berka Supervisors: Prof. Ing. Pavel Hobza, DrSc., FRSC RNDr. Jiří Vondrášek, CSc. Institute of Organic Chemistry and Biochemistry AS CR Center for Biomolecules and Complex Molecular Systems Praha 2009 Introduction Proteins are the most versatile and useful molecules in the cellular arsenal. They are the best catalysts the nature knows. Proteins cover the biggest amount of the cellular functions with range from metabolism and signaling through cell architecture to DNA replication. Variations of their structure and functions are amazing. And yet, they are built from simple building blocks – amino acids. Each amino acid has many possibilities of interactions with its neighborhood and the sequential context manifested through these possibilities is the main reason for the structure variability. The experimental investigation of the character and relative strength of interactions between amino acid residues is difficult. On the other hand, theoretical chemistry methods and techniques of are well suited for such task. They can provide useful information about structure, stability and nature of these interactions. The aim of the present thesis is the investigation of interactions between side-chains in the proteins utilizing advanced methods of current theoretical chemistry. In the present thesis we tried to answer following questions concerning side-chain side-chain interactions in proteins. 1. How strong are interactions inside the hydrophobic core of a protein? 2. How strong are other stabilizing interactions in proteins, i.e. in salt bridges? 3. What is the reason for the unusually strong interactions of proline with residues of aromatic character? 4. Which computational methods have reasonable efficiency and accuracy for interaction energy calculations? 5. What can we learn from the energy decomposition by means of SAPT method about interaction energies in proteins? 6. How diverse can be side-chain side-chain interactions in proteins? 7. How well the generally used force fields describe interaction? 8. How do interaction energies change upon the presence of a solvent? 9. How are interaction energies between amino acid side-chains distributed in proteins and what is the meaning of the representative pairs selected in Atlas of Protein Side-Chain Interactions? 2 Methods The methodical part of this work consisted from two parts: (a) selection of an appropriate representative model of side-chain side-chain interactions and (b) selection of an applicable computational method providing interaction energies. Selection of model Studies of interactions inside the hydrophobic core as well as those of salt bridges were based on crystal structures of small protein rubredoxin. Unusually strong interactions of proline with tryptophane were studied on structures of the Trp-cage protein, and EVH1 and GYF binding domains. The most extensive part of the work was based on geometries from Atlas of Protein Side-Chain Interactions. For each side chain pair, the atlas shows how one side chain is distributed with respect to the other in the space. The preferred interaction geometries are revealed by clusters in the distributions of side-chains around the central residue. Only a subset of representative structures was used in the first benchmark study. The set covered all important types of side-chain side-chain interactions and all 20 different amino acid residues. We have also used either all 20 x 20 representative pairs or even all contacts for selected residues in the Atlas of Protein Side- Chain Interactions dataset.. Selection of computational method We have utilized several ab initio or semiempirical as well as empirical force field methods to test their accuracy and speed for the calculations of the side-chain side-chain interactions. As a benchmark method was used the most accurate CCSD(T)|CBS method. The ab initio calculations were calculated with several codes with the common ruby interface called “cuby” created by Dr. Jan Řezáč. Most of the ab initio calculations were performed with Turbomole 5.8 package – RI-MP2, RI-DFT-D. Energy decomposition with DFT-SAPT calculations were performed with the use of two codes – Gaussian 03 and Molpro 2006 package. Molpro 2006 was also used for the calculation of the CCSD(T) method. Semiempirical calculations were also performed with the cuby framework. The PM6 was calculated with MOPAC2007 and the dispersion and hydrogen bond corrections were added within the ruby code from Jan Řezáč. SCC-DFTB-D energies were calculated with dftb+ program package. 3 All molecular mechanical force field calculations of the interaction energies were performed using Gromacs 3.3 package. The amino acid topology and partial charges have been taken from Sorin and Pande Amberport topologies and they were modified to represent only side-chain analogs truncated at Cα (or Cβ) atoms. In such way, modified version of parm03 and OPLS-AA/L force fields were prepared. Results All interaction energies for the side-chain contacts within the hydrophobic core of rubredoxin were calculated by DFT-SAPT method decomposing the interaction energy into physically valid terms. The strongest contributions to the overall stabilization of the core come from interactions of aromatic residues F30, F49 and W37, followed by the aliphatic residue L33. Most of the stabilizing energy originates in the dispersion term. Even the profiles of the total energy and of the dispersion energy are very similar. This emphasizes that the dispersion is dominant force in the tight arrangement of the hydrophobic core. Salt bridges are thought to provide higher thermostability for thermophilic proteins. For this reason, six different salt bridges have been selected from the mesophilic as well as thermophilic rubredoxins and their interaction energies were evaluated. The major conclusion is that the strength of the salt bridge interaction is substantially lowered upon the presence of protein-like or water environments or with the change of the pH. The thermostability of a protein can be also altered according to the “proline rule”. It states that the thermostability of proteins can be increased by the addition of proline (P) amino acid residues at specific positions. One of the reasons can be unusually strong interactions between proline and aromatic residues. The large interaction energy between proline and tryptophane in the stacked arrangement can be attributed to the favourable electrostatic interaction due to the nitrogen atom and to the facilitation of the close contact due to the cyclic arrangement. Because all previous studies were focused only on a partial selection of side-chain side-chain interactions in proteins, the set of 24 side-chain pairs was selected representing typical interactions in proteins. The interaction energies for all pairs were calculated in the gas phase by different methods and they were compared with CCSD(T)|CBS benchmark values. For selected side-chain pairs, a high degree of agreement was detected between different methods, even though the range of interaction energies was extremely large – over two orders of magnitude. The RI- 4 DFT-D was found to be the most effective method reasonable level of accuracy. Much cheaper semiempirical methods PM6-DH or SCC-DFTB- D performed noticeably worse, but they still performed better than force field methods parm03 and OPLS-AA/L. The energy decomposition of the interaction energies for the set with DFT-SAPT method showed that polar residues interact mostly by the first- order electrostatic interaction, while nonpolar residues interact mostly by the second-order dispersion. The knowledge of benchmark values for the representative set of interactions allowed us to calculate stabilization energies for all 20×20 possible pairs of side chain – side chain interactions with selected RI-DFT- D method. The results showed that most of interaction energies calculated at RI-DFT-D level are attractive in the gas phase. The variability of the strength as well as population of the side-chain side-chain contacts is enormous. Force fields methods are the most used methods for the simulations of proteins. Fortunately they provide the rough description of overall interaction energies within protein with reasonable accuracy, but they cannot be used with confidence for specific pairs such as functionally or structurally important pairs. The change of interaction energies for the set or the complete matrix of side-chain side-chain interactions upon introduction of an environment was studied with the help of PCM or COSMO solvent models with two different values of dielectric constants to imitate protein-like (ε = 4) or water environment (ε = 80). The environment highly promotes interactions between residues of aromatic or aliphatic character. The leucine-tryptophane pair (LW) was selected as a model system to put characteristic values of interaction energies in larger structural context. The complete distribution of the interaction energies has completely different shape than the distribution of cluster energies. The majority of contacts are significantly weaker than cluster contacts. This leads to the conclusion that representative pairs are strong enough to be geometrically as well as energetically distinguishable from the mostly random (and mostly attractive) interactions of the majority of side-chain side-chain pairs. Therefore they should represent structurally or functionally important interactions. 5 Conclusions 1. The dispersion energy is the main interaction term within the hydrophobic core of rubredoxin. The interaction energies between the residues in the hydrophobic core are also stronger than most of interactions between the same residues found elsewhere. 2. The strength of the salt bridge interaction is substantially lowered or even negligible upon the presence of environment. 3. Interactions of proline with tryptophane can be as strong as interactions between two aromatic residues mainly for two reasons – the presence of the heteroatom in proline strengthening electrostatic interactions and the cyclic arrangement of the proline residue increasing dispersive contacts. 4. The evaluation of interaction energies for side-chain pairs on benchmark set showed that method with reasonable accuracy and speed is RI-DFT-D. Much cheaper semiempirical methods PM6-DH or SCC-DFTB-D had worse accuracy, but they were still better than force field methods parm03 and OPLS-AA/L. The benchmark data were published in the online database www.begdb.com. 5. The decomposition of interaction energies showed that polar residues are interacting mostly by the first-order electrostatic interaction, while nonpolar residues are interacting mostly by the second-order dispersion. 6. The variability of the strength as well as the population of side-chain interactions is enormous and it poses a great demand for the precision of the calculation methods. 7. Force fields provide the rough description of overall interaction energies within protein with reasonable accuracy, but they cannot be used with confidence for specific pairs such as functionally or structurally important pairs. 8. The protein as well as water environment lowers the stabilization energies mostly for the charged and polar side-chains and thus promotes the relative importance of aromatic or aliphatic residues. 9. The distribution of the side-chain side-chain interaction energies is neither normal nor Boltzmann-like. Representative pairs from Atlas of Protein Side-Chain Interactions are strong enough to be geometrically as well as energetically distinguishable from the mostly random (and mostly attractive) interactions of the majority of the side-chain side-chain pairs. Therefore they should represent structurally or functionally important interactions. 6
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Karel Berka, Ph.D. 1.73 MB
Stáhnout Příloha k práci Mgr. Karel Berka, Ph.D. 3.76 MB
Stáhnout Abstrakt v českém jazyce Mgr. Karel Berka, Ph.D. 103 kB
Stáhnout Abstrakt anglicky Mgr. Karel Berka, Ph.D. 76 kB
Stáhnout Posudek oponenta RNDr. Lubomír Rulíšek, Ph.D. 64 kB
Stáhnout Posudek oponenta doc. RNDr. Michal Otyepka, Ph.D. 54 kB
Stáhnout Záznam o průběhu obhajoby 220 kB