Předměty

Váš prohlížeč nepodporuje JavaScript nebo je jeho podpora vypnutá. Některé funkce nemusejí být dostupné.

Strojové učení v bioinformatice - NAIL107

Anglický název:	Machine Learning in Bioinformatics
Zajišťuje:	Katedra softwaru a výuky informatiky (32-KSVI)
Fakulta:	Matematicko-fyzikální fakulta
Platnost:	od 2020
Semestr:	letní
E-Kredity:	5
Rozsah, examinace:	letní s.:2/2, Z+Zk [HT]
Počet míst:	neomezen
Minimální obsazenost:	neomezen
4EU+:	ne
Virtuální mobilita / počet míst pro virtuální mobilitu:	ne
Stav předmětu:	vyučován
Jazyk výuky:	čeština, angličtina
Způsob výuky:	prezenční
Způsob výuky:	prezenční

Garant:	RNDr. František Mráz, CSc.
Je neslučitelnost pro:	NAIX107
Je záměnnost pro:	NAIX107

Výsledky anket Termíny zkoušek Rozvrh LS Nástěnka

Anotace -

Poslední úprava: G_I (23.05.2014)

Tradiční informatické postupy a algoritmy selhávají při řešení složitých biologických problémů. Při zpracování ohromného množství biologických dat se však dají využít metody strojového učení. Cílem přednášky je představit několik oblastí využití strojového učení při zpracování biologických dat. Přednáška předpokládá znalost základů bioinformatiky, které lze získat z přednášky Bioinformatické algoritmy NTIN084, nebo z podobných přednášek na jiných školách.

Podmínky zakončení předmětu -

Poslední úprava: RNDr. František Mráz, CSc. (17.02.2020)

A) Cvičení

V doprovodném Moodle-kurzu se budou postupně objevovat úkoly a testy.

Úkoly:

Každý úkol má stanovené datum odevzdání. Každý úkol bude učitelem oznámkován přidělením 0-10 bodů. Za celý semestr budou zadány 3 úkoly.

Typické řešení úkolu bude sestávat z textu – popisu řešení – a kódu programu/skriptu použitého na vyřešení úkolu. Texty odevzdávejte ve formátu PDF, případně RTF, zdrojové kódy jako jednoduché ASCII soubory. Alternatívně lze odevzdat text i kód v jediném souboru jako jupyter/Ipython notebook.

Upozornění: V případě, že bude zjištěno, že N≥2 posluchačů odevzdalo řešení, která se nápadně podobají nebo jsou zcela totožné, budou všechna tato řešení považována za jedno řešení. Toto řešení bude ohodnoceno B body podle jeho kvality, ale každý z těchto N řešitelů získá pouze dolní celou část z B/N bodů.

Testy:

Kromě úkolů, budou postupně zveřejňovány on-line testy. Každý test bude mít stanovené datum, do kterého musí být vyřešen. Řešit test po tomto datu nebude možné. Na druhou stranu daný test lze řešit až třikrát s tím, že se započítává nejlepší výsledek.

Pro získání zápočtu je nutné:

Vypracovat řešení všech úkolů a za řešení každého úkolu získal alespoň 1 bod. POZOR: za pozdní odevzdání úkolu se strhává 1 bod za každý započatý týden po termínu odevzdání!

Vypracovat a přednést řešení projektu na jednom z posledních cvičení nebo v termínu prezentací v zkouškovém období (jeho datum a čas bude dohodnutý na cvičení v posledním týdnu semestru). Témata projektů budou dohodnuté přibližně v půlce semestru na cvičení. Prezentace a odevzdané řešení budou taktéž ohodnoceny dohromady 0-15 body.

Mezi výše uvedenými podmínkami nejsou uvedeny on-line testy. Na cvičeních lze získat dodatečné body

za předvedení řešení úkolu zadaného na cvičení - 1 bod,

za předvedení řešení úkolu zadaného a odevzdaného v Moodlu (po termíně odevzdání) - dolní celá část poloviny bodů, které budou přiděleny za odevzdané řešení.

Body získané za celý semestr budou zkoušejícím započítány do celkové známky za předmět tak, aby tvořily 40% výsledného bodového hodnocení, ze kterého bude odvozena známka při zkoušce.

Získání zápočtu vyžaduje průběžnou práci přes celý semestr, a proto žádné náhradní termíny pro získání zápočtu nebudou vypsány.

B) Přednáška

Jak už bylo zmíněno výše, body získané z cvičení budou započítány s vahou 40% do celkového hodnocení posluchače. Samotná zkouška na konci semestru se započítá 60% do výsledného hodnocení. Posluchač získá známku na základě celkového hodnocení podle následující tabulky

známka 1 známka 2 známka 3 nevyhověl

100%–86% 85%–71% 70%–56% méně než 56%

Poslední úprava: RNDr. František Mráz, CSc. (17.02.2020)

A) The seminar

Step by step, in an accompanying Moodle course there will be published assignments and quizzes.

Assignments:

Each assignment has a deadline till which the assignment should be submitted for grading. A draft solution of an assignment can be edited at any time, but the time of submission is the time you click the button "Submit solution". After clicking this button you cannot edit your submission anymore, but you can ask (per e-mail) your teacher to return the assignment back into the draft state. Each submitted assignment will be graded by the teacher with 0-10 points. During the semester, you will solve 4 assignments.

A typical solution for an assignment will consist of a text - a description of the solution - and a code of a program/script used for solving the assignment. Submit your texts as a PDF-file or alternatively as an RTF-file, the source codes should be submitted as plain ASCII files. Alternatively, it is possible to submit description and code in a single file in the form of a Jupyter notebook.

Warning: If N≥2 participants of the course will submit solutions which are very similar or identical, all these solutions will be considered as a single solution. The solution will be graded by B points according to its quality and all students who submitted it will obtain only the integer part of the value B/N points.

Quizzes:

Besides the assignments, you will solve several on-line quizzes. During the term, there will be assigned several short quizzes for at most 10 points altogether. Each quiz will have set up also a deadline. In contrast to assignments, it will be not possible to solve any quiz after its deadline.

For obtaining credits for the seminar it is necessary:

To solve all the assignments and to obtain at least 1 point for each solution. WARNING: late submission of a solution will be penalized by 1 point decrease for each started week of the delay after the deadline.

To prepare and to present a term project in a seminar in the last week of this term or on a date (during the following exam period) which will be set-up on a seminar within the last week of this term. The subject for the project will be discussed in a seminar in the middle of the term. Each project will be graded up to 15 points according to its quality.

The quizzes are not among the necessary conditions for obtaining credits for the seminar. During seminars, it is possible to obtain additional points

for demonstrating a solution of a problem assigned during a seminar - 1 point,

for demonstrating a solution submitted as a solution for an assignment in Moodle (after its deadline) - the integer part of the half of the number of points awarded for the solution (after grading by the teacher)

All points obtained during the seminars will be accounted for up to 40% of the final score of the exam.

Continuous work throughout the whole term is required to obtain the credits, therefore there will be no additional possibilities to acquire them later.

B) The lecture

As already mentioned above, points acquired within the seminar will account for up to 40% of the final score for the exam. The exam at the end of this term will add up to the remaining 60% to the final score. The following table gives the final grade according to the achieved score:

grade 1 grade 2 grade 3 failure

100%–86% 85%–71% 70%–56% less than 56%

Literatura -

Poslední úprava: RNDr. František Mráz, CSc. (09.09.2015)

[1] Mitchell, T.: Machine Learning, McGraw Hill, 1997.

[2] Kinser, J.: Python for bioinformatics, Jones and Bartlett Publishers, Sudbury, Massachusetts, 2009

[3] Inza, I., Calvo, B., Armañanzas, R., Bengoetxea, E., Larrañaga, P., Lozano, J.A.: Machine learning: an indispensable tool in bioinformatics. Methods Mol Biol. 2010;593:25-48.

[4] Yang, Z. R.: Machine learning approaches to bioinformatics. Science, Engineering, and Biology Informatics - Vol. 4. World scientific, 2010

[5] Zhang, Y., Rajapakse, J. C.: Machine learning in bioinformatics. Wiley series on bioinformatics, Wiley, Hoboken, N.J., 2009

[6] Alpaydin, E.: Introduction to machine learning. 3rd ed., The MIT Press, 2014

Sylabus -

Poslední úprava: G_I (23.05.2014)

1. Předzpracování dat.

2. Jak porovnávat algoritmy učení.

3. Metody učení s učitelem: klasifikace (rozhodovací stromy, Bayesovké klasifikátory, logistická regrese, diskriminační analýza, metoda nejbližších sousedů, Support vector machines, neuronově sítě, kombinování klasifikátorů - boosting) a její aplikace v genomice, proteomice a systémové biologii.

4. Metody učení bez učitele: shluková analýza (klastrování dělením, k-means, hierarchické klastrování, validace klastrování) a jeji aplikace v bioinformatice.

5. Pravděpodobnostní grafické modely (Bayesovské sítě, Gaussovské sítě) a jejich aplikace (v genomice a systémové biologii).

6. Optimalizace a její aplikace v bioinformatice.

Přednáška je doplněná cvičením, kde se budou metody z přednášky aplikovat na umělá ale i na reálná biologická data. Při implementaci se bude používat především interaktivní programovací jazyk Python s knihovnami pro strojové učení a práci s biologickými daty.