Témata prací (Výběr práce)Témata prací (Výběr práce)(verze: 385)
Detail práce
   Přihlásit přes CAS
Machine learning on small datasets with large number of features
Název práce v češtině: Strojové učení na malých datových množinách s velkým počtem atributů
Název v anglickém jazyce: Machine learning on small datasets with large number of features
Klíčová slova: strojové učení, výběr důležitých atributů, klasifikace
Klíčová slova anglicky: machine learning, feature selection, classification
Akademický rok vypsání: 2018/2019
Typ práce: diplomová práce
Jazyk práce: angličtina
Ústav: Katedra softwaru a výuky informatiky (32-KSVI)
Vedoucí / školitel: RNDr. František Mráz, CSc.
Řešitel: skrytý - zadáno a potvrzeno stud. odd.
Datum přihlášení: 17.06.2019
Datum zadání: 08.07.2019
Datum potvrzení stud. oddělením: 17.07.2019
Datum a čas obhajoby: 08.07.2020 09:00
Datum odevzdání elektronické podoby:26.05.2020
Datum odevzdání tištěné podoby:28.05.2020
Datum proběhlé obhajoby: 08.07.2020
Oponenti: Mgr. Filip Matzner
 
 
 
Zásady pro vypracování
The goal of this thesis is to compare different machine learning methods applicable on datasets with many columns (features) and significantly smaller number of rows (observations). In the thesis, there will be explored different strategies for variable selection (e.g. PCA, Boruta, RFE, etc.), different strategies aimed at explaining the value of the response (e.g. Random Forest, Elastic Net, Naïve Bayes, etc.) as well as combinations of the variable-selection and response-explanation strategies. Selected methods and their combinations will be implemented and compared on medium-size datasets and their feasibility and accuracy will be tested on a large omics dataset.
Seznam odborné literatury
Miron B. Kursa, Aleksander Jankowski, Witold R. Rudnicki: Boruta - A System for Feature Selection. Fundamenta Informaticae 101(4): 271-285 (2010)

Radosław Piliszek, Krzysztof Mnich, Szymon Migacz, Paweł Tabaszewski, Andrzej Sułecki, Aneta Polewko-Klim, Witold R. Rudnicki: MDFS - MultiDimensional Feature Selection. CoRR abs/1811.00631 (2018)

Lipo Wang, Yaoli Wang, and Qing Chang: Feature selection methods for big data bioinformatics: A survey from the search perspective. Methods 111: 21-31 (2016)

Claus Weihs: Big Data Classification - Aspects on Many Features. In: Solving Large Scale Learning Tasks. Challenges and Algorithms, pp. 139-147. Springer, Cham (2016)
 
Univerzita Karlova | Informační systém UK