Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 368)
Detail práce
   Přihlásit přes CAS
Kompresia biologických sekvencií
Název práce v jazyce práce (slovenština): Kompresia biologických sekvencií
Název práce v češtině: Kompresia biologických sekvencií
Název v anglickém jazyce: Compression of biological sequences
Klíčová slova: bioinformatika, kompresia, DNA, SAM formát
Klíčová slova anglicky: bioinformatics, compression, DNA, SAM format
Akademický rok vypsání: 2011/2012
Typ práce: diplomová práce
Jazyk práce: slovenština
Ústav: Katedra softwaru a výuky informatiky (32-KSVI)
Vedoucí / školitel: RNDr. František Mráz, CSc.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 24.02.2012
Datum zadání: 17.04.2012
Datum potvrzení stud. oddělením: 20.04.2012
Datum a čas obhajoby: 03.09.2012 09:30
Datum odevzdání elektronické podoby:12.07.2012
Datum odevzdání tištěné podoby:12.07.2012
Datum proběhlé obhajoby: 03.09.2012
Oponenti: doc. RNDr. Tomáš Dvořák, CSc.
 
 
 
Zásady pro vypracování
Objem dát získavaných sekvenovacími technológiami novej generácie rastie podstatne rýchlejšie ako kapacity úložných médií. Výstupy sekvenátorov okrem samotných prečítaných krátkych úsekov DNA obsahujú ďalšie informácie napr. o spoľahlivosti/kvalite čítania každého symbolu DNA. Takéto dáta je treba i po zostavení sekvencie kompletného genómu ďalej uchovávať. Faktickým štandardom v tejto oblasti sa v posledných rokoch stal formát SAM (Sequence Alignment/Mapping Format) a jeho binárna komprimovaná verzia BAM. Súbor vo formáte SAM/BAM sa používa ako formát zostavenia sekvencie so zachovaním dát získaných zo sekvenátora a ďalších metainformácií. Tento formát umožňuje pomocou indexu náhodný prístup do celého zostavenia. To je nutné, pretože súbory SAM/BAM dosahujú gigabytové veľkosti a manipulácia s celým súborom naraz je náročná na čas a hardware počítača.

Cieľom práce je navrhnúť lepšiu bezstratovú kompresnú schému súborov vo formáte SAM tak, aby komprimovaný súbor bol čo najmenší, ale zostala zachovaná možnosť priameho prístupu do pôvodného SAM súboru. Navrhnutá metóda bude predpokladať, že vstupný SAM súbor je "utriedený", tzn. že obsahuje zostavenie fragmentov DNA do výslednej sekvencie. Súčasťou práce bude určenie kompresných metód relevantných pre danú doménu, ich porovnanie pri kompresii súborov vo formáte SAM a implementácia platformovo nezávislého programu pre kompresiu a dekompresiu pre tento typ súborov.
Seznam odborné literatury
[1] H. Li, B. Handsaker, A. Wysoker, T. Fennell, J. Ruan, N. Homer, G. Marth, G. Abecasis, R. Durbin, et al: The sequence alignment/map format and SAMtools. Bioinformatics, 25(16):2078, 2009.

[2] M.H.Y. Fritz, R. Leinonen, G. Cochrane, and E. Birney: Efficient storage of high throughput DNA sequencing data using reference-based compression. Genome research, 21(5):734-740, 2011.

[3] M.N. Sakib, J. Tang, W.J. Zheng, and C.T. Huang: Improving Transmission Efficiency of Large Sequence Alignment/Map (SAM) Files. PloS one, 6(12):e28251, 2011.

[4] D. Salomon, G. Motta: Handbook of Data Compression, 5th edition. Springer, 2010.
 
Univerzita Karlova | Informační systém UK