Určování inzercí a delecí z NGS dat je složitý problém. Existující algoritmy mají relativně nízkou spolehlivost a vykazují mezi sebou velké rozdíly. Ty jsou způsobené jak sekvenačními chybami a chybami mapování, tak nejednoznačností při zarovnávání sekvencí. Cílem práce je srovnat rozdíly mezi vybranými metodami a klasifikace problematických indelů. Užitečným výstupem práce může být truth set vhodný pro automatizované testování a trénink algoritmů umělé inteligence.
Předběžná náplň práce v anglickém jazyce
Indel calling from NGS data is a difficult problem. Due to sequencing and mapping errors, as well as inherent alignment ambiguities, existing algorithms have low reproducibility rates. The aim of this project is to benchmark selected indel calling algorithms and classify problematic indel types. The desired outcome of the project will be a curated truth set suitable for automated test suites and machine learning algorithms.