velikost textu

Similarity search in Mass Spectra Databases

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Similarity search in Mass Spectra Databases
Název v češtině:
Podobnostní vyhledávání v databázích hmotnostních spekter
Typ:
Disertační práce
Autor:
Ing. Jiří Novák, Ph.D.
Školitel:
doc. RNDr. Tomáš Skopal, Ph.D.
Oponenti:
doc. Daniel Svozil, Ph.D.
Dr. Sven Nahnsen, Ph.D.
Konzultant:
RNDr. David Hoksza, Ph.D.
Id práce:
71232
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra softwarového inženýrství (32-KSI)
Program studia:
Informatika (P1801)
Obor studia:
Softwarové systémy (4I2)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
23. 9. 2013
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Klíčová slova:
tandemová hmotnostní spektrometrie, identifikace peptidů, metrické a nemetrické přístupové metody, podobnostní vyhledávání, bioinformatika
Klíčová slova v angličtině:
tandem mass spectrometry, peptide identification, metric and non-metric access methods, similarity search, bioinformatics
Abstrakt:
Abstrakt Tandemová hmotnostní spektrometrie je známá metoda pro identifikaci proteinových a peptidových sekvencí ze vzorků biologického materiálu. Hmotnostní spektrometr generuje desetitisíce spekter, která musí být následně anotována peptidovými sekvencemi. Za tímto účelem lze využít podobnostní vyhledávání v databázích teoretických spekter generovaných z databází známých proteinových sekvencí. Vzhledem k tomu, že objem těchto databází každoročně narůstá téměř exponenciálním tempem, je zapotřebí hledat nové způsoby pro jejich indexování. V této práci se zaměřujeme na využití (ne)metrických přístupových metod jako databázových indexů pro rychlé a aproximativní podobnostní vyhledávání v databázích spekter. Navržená metoda identifikace peptidových sekvencí dosahuje více než 100-násobného zrychlení oproti sekvenčnímu průchodu celé databáze, přičemž je správně anotováno přes 90% spekter. V současnosti je metoda vhodná zejména pro malé směsi proteinů. Pro komplexní směsi proteinů využíváme indexovací metodu založenou na prekurzorovém hmotnostním filtru, která má při použití s modifikací parametrizované Hausdorffovy vzdálenosti vyšší rychlost i přesnost vyhledávání než běžně používané metody. Navržené metody jsou implementovány v aplikaci SimTandem, kterou lze použít pro dávkové zpracování ve frameworku TOPP založeném na knihovně OpenMS.
Abstract v angličtině:
Abstract Shotgun proteomics is a widely known technique for identification of protein and peptide sequences from an "in vitro" sample. A tandem mass spectrometer generates tens of thousands of mass spectra which must be annotated with peptide sequences. For this purpose, the similarity search in a database of theoretical spectra generated from a database of known protein sequences can be utilized. Since the sizes of databases grow rapidly in recent years, there is a demand for utilization of various database indexing techniques. We investigate the capabilities of (non)metric access methods as the database indexing techniques for fast and approximate similarity retrieval in mass spectra databases. We show that the method for peptide sequences identification is more than 100x faster than a sequential scan over the entire database while more than 90% of spectra are correctly annotated with peptide sequences. Since the method is currently suitable for small mixtures of proteins, we also utilize a precursor mass filter as the database indexing technique for complex mixtures of proteins. The precursor mass filter followed by ranking of spectra by a modification of the parametrized Hausdorff distance outperforms state-of-the-art tools in the number of identified peptide sequences and the speed of search. The proposed methods are implemented in the peptide identification engine SimTandem which can be used for a batch analysis in the framework TOPP based on OpenMS.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Ing. Jiří Novák, Ph.D. 3.43 MB
Stáhnout Abstrakt v českém jazyce Ing. Jiří Novák, Ph.D. 172 kB
Stáhnout Abstrakt anglicky Ing. Jiří Novák, Ph.D. 168 kB
Stáhnout Posudek vedoucího doc. RNDr. Tomáš Skopal, Ph.D. 316 kB
Stáhnout Posudek oponenta doc. Daniel Svozil, Ph.D. 335 kB
Stáhnout Posudek oponenta Dr. Sven Nahnsen, Ph.D. 1.4 MB
Stáhnout Záznam o průběhu obhajoby 109 kB