Thesis (Selection of subject)Thesis (Selection of subject)(version: 368)
Thesis details
   Login via CAS
Kompresia biologických sekvencií
Thesis title in thesis language (Slovak): Kompresia biologických sekvencií
Thesis title in Czech: Kompresia biologických sekvencií
Thesis title in English: Compression of biological sequences
Key words: bioinformatika, kompresia, DNA, SAM formát
English key words: bioinformatics, compression, DNA, SAM format
Academic year of topic announcement: 2011/2012
Thesis type: diploma thesis
Thesis language: slovenština
Department: Department of Software and Computer Science Education (32-KSVI)
Supervisor: RNDr. František Mráz, CSc.
Author: hidden - assigned and confirmed by the Study Dept.
Date of registration: 24.02.2012
Date of assignment: 17.04.2012
Confirmed by Study dept. on: 20.04.2012
Date and time of defence: 03.09.2012 09:30
Date of electronic submission:12.07.2012
Date of submission of printed version:12.07.2012
Date of proceeded defence: 03.09.2012
Opponents: doc. RNDr. Tomáš Dvořák, CSc.
 
 
 
Guidelines
Objem dát získavaných sekvenovacími technológiami novej generácie rastie podstatne rýchlejšie ako kapacity úložných médií. Výstupy sekvenátorov okrem samotných prečítaných krátkych úsekov DNA obsahujú ďalšie informácie napr. o spoľahlivosti/kvalite čítania každého symbolu DNA. Takéto dáta je treba i po zostavení sekvencie kompletného genómu ďalej uchovávať. Faktickým štandardom v tejto oblasti sa v posledných rokoch stal formát SAM (Sequence Alignment/Mapping Format) a jeho binárna komprimovaná verzia BAM. Súbor vo formáte SAM/BAM sa používa ako formát zostavenia sekvencie so zachovaním dát získaných zo sekvenátora a ďalších metainformácií. Tento formát umožňuje pomocou indexu náhodný prístup do celého zostavenia. To je nutné, pretože súbory SAM/BAM dosahujú gigabytové veľkosti a manipulácia s celým súborom naraz je náročná na čas a hardware počítača.

Cieľom práce je navrhnúť lepšiu bezstratovú kompresnú schému súborov vo formáte SAM tak, aby komprimovaný súbor bol čo najmenší, ale zostala zachovaná možnosť priameho prístupu do pôvodného SAM súboru. Navrhnutá metóda bude predpokladať, že vstupný SAM súbor je "utriedený", tzn. že obsahuje zostavenie fragmentov DNA do výslednej sekvencie. Súčasťou práce bude určenie kompresných metód relevantných pre danú doménu, ich porovnanie pri kompresii súborov vo formáte SAM a implementácia platformovo nezávislého programu pre kompresiu a dekompresiu pre tento typ súborov.
References
[1] H. Li, B. Handsaker, A. Wysoker, T. Fennell, J. Ruan, N. Homer, G. Marth, G. Abecasis, R. Durbin, et al: The sequence alignment/map format and SAMtools. Bioinformatics, 25(16):2078, 2009.

[2] M.H.Y. Fritz, R. Leinonen, G. Cochrane, and E. Birney: Efficient storage of high throughput DNA sequencing data using reference-based compression. Genome research, 21(5):734-740, 2011.

[3] M.N. Sakib, J. Tang, W.J. Zheng, and C.T. Huang: Improving Transmission Efficiency of Large Sequence Alignment/Map (SAM) Files. PloS one, 6(12):e28251, 2011.

[4] D. Salomon, G. Motta: Handbook of Data Compression, 5th edition. Springer, 2010.
 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html