Traditional computer science techniques and algorithms fail to solve complex
biological problems. However, machine learning techniques can be applied to analyse and process huge volume of
biological data. The lecture presents several areas where machine learning is used to process biological data. The students
of the course are supposed to know basics of bioinformatics, which they can learn by passing the course Bioinformatics
Algorithms NTIN084, or some similar course at another school.
Last update: G_I (23.05.2014)
Tradiční informatické postupy a algoritmy selhávají při řešení složitých biologických problémů. Při zpracování ohromného
množství biologických dat se však dají využít metody strojového učení. Cílem přednášky je představit několik oblastí využití
strojového učení při zpracování biologických dat. Přednáška předpokládá znalost základů bioinformatiky, které lze získat z
přednášky Bioinformatické algoritmy NTIN084, nebo z podobných přednášek na jiných školách.
Literature -
Last update: RNDr. František Mráz, CSc. (09.09.2015)
[1] Mitchell, T.: Machine Learning, McGraw Hill, 1997.
[2] Kinser, J.: Python for bioinformatics, Jones and Bartlett Publishers, Sudbury, Massachusetts, 2009
[3] Inza, I., Calvo, B., Armañanzas, R., Bengoetxea, E., Larrañaga, P., Lozano, J.A.: Machine learning: an indispensable tool in bioinformatics. Methods Mol Biol. 2010;593:25-48.
[4] Yang, Z. R.: Machine learning approaches to bioinformatics. Science, Engineering, and Biology Informatics - Vol. 4. World scientific, 2010
[5] Zhang, Y., Rajapakse, J. C.: Machine learning in bioinformatics. Wiley series on bioinformatics, Wiley, Hoboken, N.J., 2009
[6] Alpaydin, E.: Introduction to machine learning. 3rd ed., The MIT Press, 2014
Last update: RNDr. František Mráz, CSc. (09.09.2015)
[1] Mitchell, T.: Machine Learning, McGraw Hill, 1997.
[2] Kinser, J.: Python for bioinformatics, Jones and Bartlett Publishers, Sudbury, Massachusetts, 2009
[3] Inza, I., Calvo, B., Armañanzas, R., Bengoetxea, E., Larrañaga, P., Lozano, J.A.: Machine learning: an indispensable tool in bioinformatics. Methods Mol Biol. 2010;593:25-48.
[4] Yang, Z. R.: Machine learning approaches to bioinformatics. Science, Engineering, and Biology Informatics - Vol. 4. World scientific, 2010
[5] Zhang, Y., Rajapakse, J. C.: Machine learning in bioinformatics. Wiley series on bioinformatics, Wiley, Hoboken, N.J., 2009
[6] Alpaydin, E.: Introduction to machine learning. 3rd ed., The MIT Press, 2014
Syllabus -
Last update: G_I (23.05.2014)
1. Data preprocessing.
2. How to compare machine learning algorithms.
3. Methods of supervised learning: classification (decision trees, Bayesian
classifiers, logistic regression, discriminant analysis, nearest neighbour, support vector machines, neural networks, combination of classifiers - boosting) and their applications in genomics, proteomics and system biology.
4. Methods of unsupervised learning: clustering (partition clustering, k-means, hierarchical clustering, validation of clustering) and its application in bioinformatics.
5. Probabilistic graphical models (Bayesian networks, Gaussian networks) and their applications (in genomics and system biology).
6. Optimization and its application in bioinformatics.
The lecture is accompanied by a seminary, where the methods from the lecture will be applied to real and artificial biological data. For implementing the algorithms there will be used mainly an interactive language Python with libraries for machine learning and processing of biological data. The seminary is completed by student projects.
Last update: G_I (23.05.2014)
1. Předzpracování dat.
2. Jak porovnávat algoritmy učení.
3. Metody učení s učitelem: klasifikace (rozhodovací stromy, Bayesovké klasifikátory, logistická regrese, diskriminační analýza, metoda nejbližších sousedů, Support vector machines, neuronově sítě, kombinování klasifikátorů - boosting) a její aplikace v genomice, proteomice a systémové biologii.
4. Metody učení bez učitele: shluková analýza (klastrování dělením, k-means, hierarchické klastrování, validace klastrování) a jeji aplikace v bioinformatice.
5. Pravděpodobnostní grafické modely (Bayesovské sítě, Gaussovské sítě) a jejich aplikace (v genomice a systémové biologii).
6. Optimalizace a její aplikace v bioinformatice.
Přednáška je doplněná cvičením, kde se budou metody z přednášky aplikovat na umělá ale i na reálná biologická data. Při implementaci se bude používat především interaktivní programovací jazyk Python s knihovnami pro strojové učení a práci s biologickými daty.