Machine learning on small datasets with large number of features
Název práce v češtině: | Strojové učení na malých datových množinách s velkým počtem atributů |
---|---|
Název v anglickém jazyce: | Machine learning on small datasets with large number of features |
Klíčová slova: | strojové učení, výběr důležitých atributů, klasifikace |
Klíčová slova anglicky: | machine learning, feature selection, classification |
Akademický rok vypsání: | 2018/2019 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Katedra softwaru a výuky informatiky (32-KSVI) |
Vedoucí / školitel: | RNDr. František Mráz, CSc. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 17.06.2019 |
Datum zadání: | 08.07.2019 |
Datum potvrzení stud. oddělením: | 17.07.2019 |
Datum a čas obhajoby: | 08.07.2020 09:00 |
Datum odevzdání elektronické podoby: | 26.05.2020 |
Datum odevzdání tištěné podoby: | 28.05.2020 |
Datum proběhlé obhajoby: | 08.07.2020 |
Oponenti: | Mgr. Filip Matzner |
Zásady pro vypracování |
The goal of this thesis is to compare different machine learning methods applicable on datasets with many columns (features) and significantly smaller number of rows (observations). In the thesis, there will be explored different strategies for variable selection (e.g. PCA, Boruta, RFE, etc.), different strategies aimed at explaining the value of the response (e.g. Random Forest, Elastic Net, Naïve Bayes, etc.) as well as combinations of the variable-selection and response-explanation strategies. Selected methods and their combinations will be implemented and compared on medium-size datasets and their feasibility and accuracy will be tested on a large omics dataset. |
Seznam odborné literatury |
Miron B. Kursa, Aleksander Jankowski, Witold R. Rudnicki: Boruta - A System for Feature Selection. Fundamenta Informaticae 101(4): 271-285 (2010)
Radosław Piliszek, Krzysztof Mnich, Szymon Migacz, Paweł Tabaszewski, Andrzej Sułecki, Aneta Polewko-Klim, Witold R. Rudnicki: MDFS - MultiDimensional Feature Selection. CoRR abs/1811.00631 (2018) Lipo Wang, Yaoli Wang, and Qing Chang: Feature selection methods for big data bioinformatics: A survey from the search perspective. Methods 111: 21-31 (2016) Claus Weihs: Big Data Classification - Aspects on Many Features. In: Solving Large Scale Learning Tasks. Challenges and Algorithms, pp. 139-147. Springer, Cham (2016) |