velikost textu

Similarity Search in Protein Databases

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Similarity Search in Protein Databases
Název v češtině:
Podobnostní vyhledávání v proteinových databázích
Typ:
Disertační práce
Autor:
RNDr. David Hoksza, Ph.D.
Školitel:
doc. RNDr. Tomáš Skopal, Ph.D.
Oponenti:
Gonzalo Navarro
doc. Daniel Svozil, Ph.D.
Id práce:
44251
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra softwarového inženýrství (32-KSI)
Program studia:
Informatika (P1801)
Obor studia:
Softwarové systémy (4I2)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
3. 9. 2010
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Abstrakt:
Jedna z hlavních operací v oblasti bioinformatiky je prirazení podobnosti proteinových sekvencí a struktur. Toto prirazení se využívá v širokém spektru aplikací jako je predikce proteinové struktury, prirazení funkce, automatická klasifikace, atd. Proteinové databáze zaznamenaly v posledních letech exponenciální rust dat, címž se stávající metody pro extrakci podobnosti stávají nevhodnými vzhledem k objemu dat. V této práci se zabýváme podobnostním vyhledáváním na úrovni proteinové sekvence a struktury. Na obou úrovních navrhujeme vylepšení stávajících metod, stejne jako nové metody pro práci s proteiny z hlediska podobnosti. V první cásti se zabýváme podobnostním vyhledáváním na úrovni proteinové sekvence. Nejdríve zkoumáme možnosti aplikace metrických prístupových metod pro efektivní uložení a vyhledávání sekvencí. Poté se zamerujeme na podobnostní míru proteinových sekvencí jako takovou. Výpocet podobnosti proteinových sekvencí je založen na dynamickém programování a proto navrhujeme vylepšení za úcelem zrychlení vyhledávání znovuvyužíváním cástí matice dynamického programování pri zachování presnosti vyhledávání. Druhá cást práce se zabývá podobností proteinových struktur. Predstavujeme nový prístup k reprezentaci proteinových struktur, který je invariantní s ohledem na posun a rotaci. Invariance vyplývá z vlastnosti extrahovaných rysu založených na vzájemné vzdálenosti a hustote aminokyselin v daném proteinu. Algoritmy pro prirazení podobnosti proteinovým strukturám lze rozdelit na dve trídy - prístupy založené na zarovnání a prístupy které ho nevyužívají. Uvedenou techniku extrakce vlastností aplikujeme na obe oblasti. Pro overení naší metody ji aplikujeme na oblast automatické klasifikace proteinu. Zde ukazuje výkon a presnost srovnatelnou, nebo prekonávající, ostatní metody.
Abstract v angličtině:
One of the principal operations in the area of bioinformatics is similarity assessment at the levels of protein sequence (string of characters) and protein structure (3D shape). It is employed in a wide range of applications such as protein structure prediction, protein function assessment, automatic classification, etc. The protein databases have been growing exponentially in recent years, thus making the existing methods for similarity retrieval inappropriate concerning the volume of the protein-related data. In this thesis, we focus on similarity retrieval on protein sequence and structure levels. At both levels, we propose improvements to the existing methods, as well as novel methods for managing proteins from the similarity perspective. In the first part of the thesis we approach the problem of similarity retrieval at protein sequence level. First, we evaluate the possibilities of utilizing metric access methods for efficient storing and retrieval of protein sequences. Then, we focus on the protein similarity measure itself. Since the similarity computation of protein sequences is based on dynamic programming, we introduce an improvement for increasing efficiency (response time) of the retrieval by reusing parts of the dynamic programming matrix, while maintaining original effectiveness (quality of query result). The second part of the thesis concerns the structure level. We introduce novel protein structure representation employing features invariant with respect to translation and rotation. The invariance stems from the features being based on mutual distance and density of amino acids in given protein. The protein structure similarity assessment algorithms can be divided into two classes — alignment- and nonalignment-based approaches, while employ our feature extraction technique in both areas. Our method is evaluated by its application to the area of automatic protein classification. We show that effectiveness and efficiency of our approach is comparable to or outperforms the other methods.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce RNDr. David Hoksza, Ph.D. 13.34 MB
Stáhnout Abstrakt v českém jazyce RNDr. David Hoksza, Ph.D. 81 kB
Stáhnout Abstrakt anglicky RNDr. David Hoksza, Ph.D. 81 kB
Stáhnout Posudek vedoucího doc. RNDr. Tomáš Skopal, Ph.D. 70 kB
Stáhnout Posudek oponenta Gonzalo Navarro 135 kB
Stáhnout Posudek oponenta doc. Daniel Svozil, Ph.D. 106 kB
Stáhnout Záznam o průběhu obhajoby 41 kB