PředmětyPředměty(verze: 945)
Předmět, akademický rok 2023/2024
   Přihlásit přes CAS
Strojové učení v bioinformatice - NAIL107
Anglický název: Machine Learning in Bioinformatics
Zajišťuje: Katedra softwaru a výuky informatiky (32-KSVI)
Fakulta: Matematicko-fyzikální fakulta
Platnost: od 2020
Semestr: letní
E-Kredity: 5
Rozsah, examinace: letní s.:2/2, Z+Zk [HT]
Počet míst: neomezen
Minimální obsazenost: neomezen
4EU+: ne
Virtuální mobilita / počet míst pro virtuální mobilitu: ne
Stav předmětu: vyučován
Jazyk výuky: čeština, angličtina
Způsob výuky: prezenční
Způsob výuky: prezenční
Garant: RNDr. František Mráz, CSc.
Je neslučitelnost pro: NAIX107
Je záměnnost pro: NAIX107
Anotace -
Poslední úprava: G_I (23.05.2014)
Tradiční informatické postupy a algoritmy selhávají při řešení složitých biologických problémů. Při zpracování ohromného množství biologických dat se však dají využít metody strojového učení. Cílem přednášky je představit několik oblastí využití strojového učení při zpracování biologických dat. Přednáška předpokládá znalost základů bioinformatiky, které lze získat z přednášky Bioinformatické algoritmy NTIN084, nebo z podobných přednášek na jiných školách.
Podmínky zakončení předmětu -
Poslední úprava: RNDr. František Mráz, CSc. (17.02.2020)

A) Cvičení

V doprovodném Moodle-kurzu se budou postupně objevovat úkoly a testy.

Úkoly:

Každý úkol má stanovené datum odevzdání. Každý úkol bude učitelem oznámkován přidělením 0-10 bodů. Za celý semestr budou zadány 3 úkoly.

Typické řešení úkolu bude sestávat z textu – popisu řešení – a kódu programu/skriptu použitého na vyřešení úkolu. Texty odevzdávejte ve formátu PDF, případně RTF, zdrojové kódy jako jednoduché ASCII soubory. Alternatívně lze odevzdat text i kód v jediném souboru jako jupyter/Ipython notebook.

Upozornění: V případě, že bude zjištěno, že N≥2 posluchačů odevzdalo řešení, která se nápadně podobají nebo jsou zcela totožné, budou všechna tato řešení považována za jedno řešení. Toto řešení bude ohodnoceno B body podle jeho kvality, ale každý z těchto N řešitelů získá pouze dolní celou část z B/N bodů.

Testy:

Kromě úkolů, budou postupně zveřejňovány on-line testy. Každý test bude mít stanovené datum, do kterého musí být vyřešen. Řešit test po tomto datu nebude možné. Na druhou stranu daný test lze řešit až třikrát s tím, že se započítává nejlepší výsledek.

Pro získání zápočtu je nutné:

  1. Vypracovat řešení všech úkolů a za řešení každého úkolu získal alespoň 1 bod. POZOR: za pozdní odevzdání úkolu se strhává 1 bod za každý započatý týden po termínu odevzdání!
  2. Vypracovat a přednést řešení projektu na jednom z posledních cvičení nebo v termínu prezentací v zkouškovém období (jeho datum a čas bude dohodnutý na cvičení v posledním týdnu semestru). Témata projektů budou dohodnuté přibližně v půlce semestru na cvičení. Prezentace a odevzdané řešení budou taktéž ohodnoceny dohromady 0-15 body.

Mezi výše uvedenými podmínkami nejsou uvedeny on-line testy. Na cvičeních lze získat dodatečné body

  • za předvedení řešení úkolu zadaného na cvičení - 1 bod,
  • za předvedení řešení úkolu zadaného a odevzdaného v Moodlu (po termíně odevzdání) - dolní celá část poloviny bodů, které budou přiděleny za odevzdané řešení.

Body získané za celý semestr budou zkoušejícím započítány do celkové známky za předmět tak, aby tvořily 40% výsledného bodového hodnocení, ze kterého bude odvozena známka při zkoušce.

Získání zápočtu vyžaduje průběžnou práci přes celý semestr, a proto žádné náhradní termíny pro získání zápočtu nebudou vypsány.

B) Přednáška

Jak už bylo zmíněno výše, body získané z cvičení budou započítány s vahou 40% do celkového hodnocení posluchače. Samotná zkouška na konci semestru se započítá 60% do výsledného hodnocení. Posluchač získá známku na základě celkového hodnocení podle následující tabulky

známka 1 známka 2 známka 3 nevyhověl
100%–86% 85%–71% 70%–56% méně než 56%

Literatura -
Poslední úprava: RNDr. František Mráz, CSc. (09.09.2015)

[1] Mitchell, T.: Machine Learning, McGraw Hill, 1997.

[2] Kinser, J.: Python for bioinformatics, Jones and Bartlett Publishers, Sudbury, Massachusetts, 2009

[3] Inza, I., Calvo, B., Armañanzas, R., Bengoetxea, E., Larrañaga, P., Lozano, J.A.: Machine learning: an indispensable tool in bioinformatics. Methods Mol Biol. 2010;593:25-48.

[4] Yang, Z. R.: Machine learning approaches to bioinformatics. Science, Engineering, and Biology Informatics - Vol. 4. World scientific, 2010

[5] Zhang, Y., Rajapakse, J. C.: Machine learning in bioinformatics. Wiley series on bioinformatics, Wiley, Hoboken, N.J., 2009

[6] Alpaydin, E.: Introduction to machine learning. 3rd ed., The MIT Press, 2014

Sylabus -
Poslední úprava: G_I (23.05.2014)

1. Předzpracování dat.

2. Jak porovnávat algoritmy učení.

3. Metody učení s učitelem: klasifikace (rozhodovací stromy, Bayesovké klasifikátory, logistická regrese, diskriminační analýza, metoda nejbližších sousedů, Support vector machines, neuronově sítě, kombinování klasifikátorů - boosting) a její aplikace v genomice, proteomice a systémové biologii.

4. Metody učení bez učitele: shluková analýza (klastrování dělením, k-means, hierarchické klastrování, validace klastrování) a jeji aplikace v bioinformatice.

5. Pravděpodobnostní grafické modely (Bayesovské sítě, Gaussovské sítě) a jejich aplikace (v genomice a systémové biologii).

6. Optimalizace a její aplikace v bioinformatice.

Přednáška je doplněná cvičením, kde se budou metody z přednášky aplikovat na umělá ale i na reálná biologická data. Při implementaci se bude používat především interaktivní programovací jazyk Python s knihovnami pro strojové učení a práci s biologickými daty.

 
Univerzita Karlova | Informační systém UK