velikost textu

Computational Intelligence Methods in Metalearning

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Computational Intelligence Methods in Metalearning
Název v češtině:
Metody výpočetní inteligence pro metaučení
Typ:
Disertační práce
Autor:
Mgr. Jakub Šmíd
Školitel:
Mgr. Roman Neruda, CSc.
Oponenti:
Dr. Joaquin Vanschoren
Mgr. Marta Vomlelová, Ph.D.
Id práce:
123234
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Ústav informatiky AV ČR, v.v.i. (32-UIAV)
Program studia:
Informatika (P1801)
Obor studia:
Teoretická informatika (4I1)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
26. 9. 2016
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Klíčová slova:
Metaučení, Strojové učení, Metriky, Genetické algoritmy, Přiřazování atributů
Klíčová slova v angličtině:
Metalearning, Machine Learning, Metric, Genetic Algorithms, Attribute Assignment
Abstrakt:
Tato práce je zaměřena na problematiku výběru algoritmu, která má za cíl doporučit algoritmus strojového učení k nové úloze. Řešení problému vychází z myšlenky, že se algoritmy chovají podobně na podobných datech. Tato podobnost je často založena na extrakci pevného počtu metaatributů z každé úlohy. Vzhledem k tomu, že počet atributů se u různých úloh typicky liší, ztrácíme tak důležité informace. V této práci popíšeme třídu algoritmů, která dokáže zpracovat také informace o jednotlivých atributech. Naše metody jsou založeny na přiřazování atributů. Výsledná vzdálenost mezi úlohami je dána jako součet vzdáleností mezi atributy určenými optimálním přiřazením. Dále dokážeme, že za určitých podmínek můžeme zaručit, že výsledná vzdálenost mezi úlohami je metrika. Provedeme sadu experimentů na datech extrahovaných z OpenML repozitáře. Vytvoříme vzdálenost mezi atributy prostřednictvím genetických algoritmů, genetického programování a několika regularizačních technik, jako je koevoluce a zavedení vícekriteriality. Výsledky experimentů naznačují, že výsledná vzdálenost mezi úlohami může být úspěšně použita na problematiku výběru algoritmu. Ačkoliv jsme naše metody použili výhradně k metaučení, lze je aplikovat i v jiných oblastech. Navržené algoritmy jsou aplikovatelné kdekoliv, kde máme definovanou vzdálenost mezi prvky nějaké množiny a potřebujeme navrhnout vzdálenost mezi prvky potenční množiny původní množiny. Powered by TCPDF (www.tcpdf.org)
Abstract v angličtině:
This thesis focuses on the algorithm selection problem, in which the goal is to recommend machine learning algorithms to a new dataset. The idea behind solving this issue is that algorithm performs similarly on similar datasets. The usual approach is to base the similarity measure on the fixed vector of metafeatures extracted out of each dataset. However, as the number of attributes among datasets varies, we may be loosing important information. Herein, we propose a family of algorithms able to handle even the non-propositional representations of datasets. Our methods use the idea of attribute assignment that builds the distance measure between datasets as a sum of distance given by the optimal assignment and an attribute distance measure. Furthermore, we prove that under certain conditions, we can guarantee the resulting dataset distance to be a metric. We carry out a series of metalearning experiments on the data extracted from the OpenML repository. We build up attribute distance using Genetic Algorithms, Genetic Programming and several regularization techniques such as multi-objectivization, coevolution, and bootstrapping. The experiment indicates that the resulting dataset distance can be successfully applied on the algorithm selection problem. Although we use the proposed distance measures exclusively on metalearning, it is possible to use our methods even beyond this task. The algorithms can handle every situation where we have a notion of distance between elements of some set and are looking to define a distance on the power set of the original set. Powered by TCPDF (www.tcpdf.org)
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Mgr. Jakub Šmíd 2.74 MB
Stáhnout Abstrakt v českém jazyce Mgr. Jakub Šmíd 84 kB
Stáhnout Abstrakt anglicky Mgr. Jakub Šmíd 84 kB
Stáhnout Posudek vedoucího Mgr. Roman Neruda, CSc. 59 kB
Stáhnout Posudek oponenta Dr. Joaquin Vanschoren 53 kB
Stáhnout Posudek oponenta Mgr. Marta Vomlelová, Ph.D. 421 kB
Stáhnout Záznam o průběhu obhajoby doc. RNDr. Tomáš Dvořák, CSc. 98 kB