Tradiční informatické postupy a algoritmy selhávají při řešení složitých biologických problémů. Při zpracování ohromného
množství biologických dat se však dají využít metody strojového učení. Cílem přednášky je představit několik oblastí využití
strojového učení při zpracování biologických dat. Přednáška předpokládá znalost základů bioinformatiky, které lze získat z
přednášky Bioinformatické algoritmy NTIN084, nebo z podobných přednášek na jiných školách.
Poslední úprava: G_I (23.05.2014)
Traditional computer science techniques and algorithms fail to solve complex
biological problems. However, machine learning techniques can be applied to analyse and process huge volume of
biological data. The lecture presents several areas where machine learning is used to process biological data. The students
of the course are supposed to know basics of bioinformatics, which they can learn by passing the course Bioinformatics
Algorithms NTIN084, or some similar course at another school.
Poslední úprava: G_I (23.05.2014)
Podmínky zakončení předmětu -
A) Cvičení
V doprovodném Moodle-kurzu se budou postupně objevovat úkoly a testy.
Úkoly:
Každý úkol má stanovené datum odevzdání. Každý úkol bude učitelem oznámkován přidělením 0-10 bodů. Za celý semestr budou zadány 3 úkoly.
Typické řešení úkolu bude sestávat z textu – popisu řešení – a kódu programu/skriptu použitého na vyřešení úkolu. Texty odevzdávejte ve formátu PDF, případně RTF, zdrojové kódy jako jednoduché ASCII soubory. Alternatívně lze odevzdat text i kód v jediném souboru jako jupyter/Ipython notebook.
Upozornění: V případě, že bude zjištěno, že N≥2 posluchačů odevzdalo řešení, která se nápadně podobají nebo jsou zcela totožné, budou všechna tato řešení považována za jedno řešení. Toto řešení bude ohodnoceno B body podle jeho kvality, ale každý z těchto N řešitelů získá pouze dolní celou část z B/N bodů.
Testy:
Kromě úkolů, budou postupně zveřejňovány on-line testy. Každý test bude mít stanovené datum, do kterého musí být vyřešen. Řešit test po tomto datu nebude možné. Na druhou stranu daný test lze řešit až třikrát s tím, že se započítává nejlepší výsledek.
Pro získání zápočtu je nutné:
Vypracovat řešení všech úkolů a za řešení každého úkolu získal alespoň 1 bod. POZOR: za pozdní odevzdání úkolu se strhává 1 bod za každý započatý týden po termínu odevzdání!
Vypracovat a přednést řešení projektu na jednom z posledních cvičení nebo v termínu prezentací v zkouškovém období (jeho datum a čas bude dohodnutý na cvičení v posledním týdnu semestru). Témata projektů budou dohodnuté přibližně v půlce semestru na cvičení. Prezentace a odevzdané řešení budou taktéž ohodnoceny dohromady 0-15 body.
Mezi výše uvedenými podmínkami nejsou uvedeny on-line testy. Na cvičeních lze získat dodatečné body
za předvedení řešení úkolu zadaného na cvičení - 1 bod,
za předvedení řešení úkolu zadaného a odevzdaného v Moodlu (po termíně odevzdání) - dolní celá část poloviny bodů, které budou přiděleny za odevzdané řešení.
Body získané za celý semestr budou zkoušejícím započítány do celkové známky za předmět tak, aby tvořily 40% výsledného bodového hodnocení, ze kterého bude odvozena známka při zkoušce.
Získání zápočtu vyžaduje průběžnou práci přes celý semestr, a proto žádné náhradní termíny pro získání zápočtu nebudou vypsány.
B) Přednáška
Jak už bylo zmíněno výše, body získané z cvičení budou započítány s vahou 40% do celkového hodnocení posluchače. Samotná zkouška na konci semestru se započítá 60% do výsledného hodnocení. Posluchač získá známku na základě celkového hodnocení podle následující tabulky
známka 1
známka 2
známka 3
nevyhověl
100%–86%
85%–71%
70%–56%
méně než 56%
Poslední úprava: Mráz František, RNDr., CSc. (17.02.2020)
A) The seminar
Step by step, in an accompanying Moodle course there will be published assignments and quizzes.
Assignments:
Each assignment has a deadline till which the assignment should be submitted for grading. A draft solution of an assignment can be edited at any time, but the time of submission is the time you click the button "Submit solution". After clicking this button you cannot edit your submission anymore, but you can ask (per e-mail) your teacher to return the assignment back into the draft state. Each submitted assignment will be graded by the teacher with 0-10 points. During the semester, you will solve 4 assignments.
A typical solution for an assignment will consist of a text - a description of the solution - and a code of a program/script used for solving the assignment. Submit your texts as a PDF-file or alternatively as an RTF-file, the source codes should be submitted as plain ASCII files. Alternatively, it is possible to submit description and code in a single file in the form of a Jupyter notebook.
Warning: If N≥2 participants of the course will submit solutions which are very similar or identical, all these solutions will be considered as a single solution. The solution will be graded by B points according to its quality and all students who submitted it will obtain only the integer part of the value B/N points.
Quizzes:
Besides the assignments, you will solve several on-line quizzes. During the term, there will be assigned several short quizzes for at most 10 points altogether. Each quiz will have set up also a deadline. In contrast to assignments, it will be not possible to solve any quiz after its deadline.
For obtaining credits for the seminar it is necessary:
To solve all the assignments and to obtain at least 1 point for each solution. WARNING: late submission of a solution will be penalized by 1 point decrease for each started week of the delay after the deadline.
To prepare and to present a term project in a seminar in the last week of this term or on a date (during the following exam period) which will be set-up on a seminar within the last week of this term. The subject for the project will be discussed in a seminar in the middle of the term. Each project will be graded up to 15 points according to its quality.
The quizzes are not among the necessary conditions for obtaining credits for the seminar. During seminars, it is possible to obtain additional points
for demonstrating a solution of a problem assigned during a seminar - 1 point,
for demonstrating a solution submitted as a solution for an assignment in Moodle (after its deadline) - the integer part of the half of the number of points awarded for the solution (after grading by the teacher)
All points obtained during the seminars will be accounted for up to 40% of the final score of the exam.
Continuous work throughout the whole term is required to obtain the credits, therefore there will be no additional possibilities to acquire them later.
B) The lecture
As already mentioned above, points acquired within the seminar will account for up to 40% of the final score for the exam. The exam at the end of this term will add up to the remaining 60% to the final score. The following table gives the final grade according to the achieved score:
grade 1
grade 2
grade 3
failure
100%–86%
85%–71%
70%–56%
less than 56%
Poslední úprava: Mráz František, RNDr., CSc. (17.02.2020)
Literatura -
[1] Mitchell, T.: Machine Learning, McGraw Hill, 1997.
[2] Kinser, J.: Python for bioinformatics, Jones and Bartlett Publishers, Sudbury, Massachusetts, 2009
[3] Inza, I., Calvo, B., Armañanzas, R., Bengoetxea, E., Larrañaga, P., Lozano, J.A.: Machine learning: an indispensable tool in bioinformatics. Methods Mol Biol. 2010;593:25-48.
[4] Yang, Z. R.: Machine learning approaches to bioinformatics. Science, Engineering, and Biology Informatics - Vol. 4. World scientific, 2010
[5] Zhang, Y., Rajapakse, J. C.: Machine learning in bioinformatics. Wiley series on bioinformatics, Wiley, Hoboken, N.J., 2009
[6] Alpaydin, E.: Introduction to machine learning. 3rd ed., The MIT Press, 2014
Poslední úprava: Mráz František, RNDr., CSc. (09.09.2015)
[1] Mitchell, T.: Machine Learning, McGraw Hill, 1997.
[2] Kinser, J.: Python for bioinformatics, Jones and Bartlett Publishers, Sudbury, Massachusetts, 2009
[3] Inza, I., Calvo, B., Armañanzas, R., Bengoetxea, E., Larrañaga, P., Lozano, J.A.: Machine learning: an indispensable tool in bioinformatics. Methods Mol Biol. 2010;593:25-48.
[4] Yang, Z. R.: Machine learning approaches to bioinformatics. Science, Engineering, and Biology Informatics - Vol. 4. World scientific, 2010
[5] Zhang, Y., Rajapakse, J. C.: Machine learning in bioinformatics. Wiley series on bioinformatics, Wiley, Hoboken, N.J., 2009
[6] Alpaydin, E.: Introduction to machine learning. 3rd ed., The MIT Press, 2014
Poslední úprava: Mráz František, RNDr., CSc. (09.09.2015)
Sylabus -
1. Předzpracování dat.
2. Jak porovnávat algoritmy učení.
3. Metody učení s učitelem: klasifikace (rozhodovací stromy, Bayesovké klasifikátory, logistická regrese, diskriminační analýza, metoda nejbližších sousedů, Support vector machines, neuronově sítě, kombinování klasifikátorů - boosting) a její aplikace v genomice, proteomice a systémové biologii.
4. Metody učení bez učitele: shluková analýza (klastrování dělením, k-means, hierarchické klastrování, validace klastrování) a jeji aplikace v bioinformatice.
5. Pravděpodobnostní grafické modely (Bayesovské sítě, Gaussovské sítě) a jejich aplikace (v genomice a systémové biologii).
6. Optimalizace a její aplikace v bioinformatice.
Přednáška je doplněná cvičením, kde se budou metody z přednášky aplikovat na umělá ale i na reálná biologická data. Při implementaci se bude používat především interaktivní programovací jazyk Python s knihovnami pro strojové učení a práci s biologickými daty.
Poslední úprava: G_I (23.05.2014)
1. Data preprocessing.
2. How to compare machine learning algorithms.
3. Methods of supervised learning: classification (decision trees, Bayesian
classifiers, logistic regression, discriminant analysis, nearest neighbour, support vector machines, neural networks, combination of classifiers - boosting) and their applications in genomics, proteomics and system biology.
4. Methods of unsupervised learning: clustering (partition clustering, k-means, hierarchical clustering, validation of clustering) and its application in bioinformatics.
5. Probabilistic graphical models (Bayesian networks, Gaussian networks) and their applications (in genomics and system biology).
6. Optimization and its application in bioinformatics.
The lecture is accompanied by a seminary, where the methods from the lecture will be applied to real and artificial biological data. For implementing the algorithms there will be used mainly an interactive language Python with libraries for machine learning and processing of biological data. The seminary is completed by student projects.