SubjectsSubjects(version: 845)
Course, academic year 2018/2019
   Login via CAS
Machine Learning in Bioinformatics - NAIL107
Title in English: Strojové učení v bioinformatice
Guaranteed by: Department of Software and Computer Science Education (32-KSVI)
Faculty: Faculty of Mathematics and Physics
Actual: from 2018 to 2019
Semester: summer
E-Credits: 6
Hours per week, examination: summer s.:2/2 C+Ex [hours/week]
Capacity: unlimited
Min. number of students: unlimited
State of the course: taught
Language: Czech, English
Teaching methods: full-time
Guarantor: RNDr. František Mráz, CSc.
Annotation -
Last update: G_I (23.05.2014)
Traditional computer science techniques and algorithms fail to solve complex biological problems. However, machine learning techniques can be applied to analyse and process huge volume of biological data. The lecture presents several areas where machine learning is used to process biological data. The students of the course are supposed to know basics of bioinformatics, which they can learn by passing the course Bioinformatics Algorithms NTIN084, or some similar course at another school.
Course completion requirements - Czech
Last update: RNDr. František Mráz, CSc. (23.02.2018)

A) Cvičení

V doprovodném Moodle-kurzu se budou postupně objevovat úkoly a testy.

Úkoly:

Každý úkol má stanovené datum odevzdání. Každý úkol bude učitelem oznámkován přidělením 0-10 bodů. Za celý semestr budou zadány 3 úkoly.

Typické řešení úkolu bude sestávat z textu – popisu řešení – a kódu programu/skriptu použitého na vyřešení úkolu. Texty odevzdávejte ve formátu PDF, případně RTF, zdrojové kódy jako jednoduché ASCII soubory. Alternatívně lze odevzdat text i kód v jediném souboru jako jupyter/Ipython notebook.

Testy:

Kromě úkolů, budou postupně zveřejňovány on-line testy. Každý test bude mít stanovené datum, do kterého musí být vyřešen. Řešit test po tomto datu nebude možné. Na druhou stranu daný test lze řešit až třikrát s tím, že se započítává nejlepší výsledek.

Pro získání zápočtu je nutné:

  1. Vypracovat řešení všech úkolů a za řešení každého úkolu získal alespoň 1 bod. POZOR: za pozdní odevzdání úkolu se strhává 1 bod za každý započatý týden po termínu odevzdání!
  2. Vypracovat a přednést řešení projektu na jednom z posledních cvičení nebo v termínu prezentací v zkouškovém období (jeho datum a čas bude dohodnutý na cvičení v posledním týdnu semestru). Témata projektů budou dohodnuté přibližně v půlce semestru na cvičení. Prezentace a odevzdané řešení budou taktéž ohodnoceny dohromady 0-15 body.

Mezi výše uvedenými podmínkami nejsou uvedeny on-line testy. Na cvičeních lze získat dodatečné body

  • za předvedení řešení úkolu zadaného na cvičení - 1 bod,
  • za předvedení řešení úkolu zadaného a odevzdaného v Moodlu (po termíně odevzdání) - dolní celá část poloviny bodů, které budou přiděleny za odevzdané řešení.

Body získané za celý semestr budou zkoušejícím započítány do celkové známky za předmět tak, aby tvořily 40% výsledného bodového hodnocení, ze kterého bude odvozena známka při zkoušce.

Získání zápočtu vyžaduje průběžnou práci přes celý semestr, a proto žádné náhradní termíny pro získání zápočtu nebudou vypsány.

B) Přednáška

Jak už bylo zmíněno výše, body získané z cvičení budou započítány s vahou 40% do celkového hodnocení posluchače. Samotná zkouška na konci semestru se započítá 60% do výsledného hodnocení. Posluchač získá známku na základě celkového hodnocení podle následující tabulky

známka 1 známka 2 známka 3 nevyhověl
100%–86% 85%–71% 70%–56% méně než 56%

Literature -
Last update: RNDr. František Mráz, CSc. (09.09.2015)

[1] Mitchell, T.: Machine Learning, McGraw Hill, 1997.

[2] Kinser, J.: Python for bioinformatics, Jones and Bartlett Publishers, Sudbury, Massachusetts, 2009

[3] Inza, I., Calvo, B., Armañanzas, R., Bengoetxea, E., Larrañaga, P., Lozano, J.A.: Machine learning: an indispensable tool in bioinformatics. Methods Mol Biol. 2010;593:25-48.

[4] Yang, Z. R.: Machine learning approaches to bioinformatics. Science, Engineering, and Biology Informatics - Vol. 4. World scientific, 2010

[5] Zhang, Y., Rajapakse, J. C.: Machine learning in bioinformatics. Wiley series on bioinformatics, Wiley, Hoboken, N.J., 2009

[6] Alpaydin, E.: Introduction to machine learning. 3rd ed., The MIT Press, 2014

Syllabus -
Last update: G_I (23.05.2014)

1. Data preprocessing.

2. How to compare machine learning algorithms.

3. Methods of supervised learning: classification (decision trees, Bayesian

classifiers, logistic regression, discriminant analysis, nearest neighbour, support vector machines, neural networks, combination of classifiers - boosting) and their applications in genomics, proteomics and system biology.

4. Methods of unsupervised learning: clustering (partition clustering, k-means, hierarchical clustering, validation of clustering) and its application in bioinformatics.

5. Probabilistic graphical models (Bayesian networks, Gaussian networks) and their applications (in genomics and system biology).

6. Optimization and its application in bioinformatics.

The lecture is accompanied by a seminary, where the methods from the lecture will be applied to real and artificial biological data. For implementing the algorithms there will be used mainly an interactive language Python with libraries for machine learning and processing of biological data. The seminary is completed by student projects.

 
Charles University | Information system of Charles University | http://www.cuni.cz/UKEN-329.html