velikost textu

Feature Evaluation for Scalable Cover Song Identification Using Machine Learning

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Feature Evaluation for Scalable Cover Song Identification Using Machine Learning
Název v češtině:
Ohodnocení příznaků pro rozpoznávání cover verzí písní pomocí technik strojového učení
Typ:
Diplomová práce
Autor:
Bc. Petr Martišek
Vedoucí:
Mgr. Ladislav Maršík
Oponent:
Mgr. Jan Hajič
Id práce:
186377
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra softwarového inženýrství (32-KSI)
Program studia:
Informatika (N1801)
Obor studia:
Umělá inteligence (IUI)
Přidělovaný titul:
Mgr.
Datum obhajoby:
10. 6. 2019
Výsledek obhajoby:
Výborně
Jazyk práce:
Angličtina
Klíčová slova:
music information retrieval, rozpoznávání cover verzí písní, strojové učení, ohodnocení příznaků
Klíčová slova v angličtině:
music information retrieval, cover song identification, machine learning, feature evaluation
Abstrakt:
Abstrakt: Rozpoznávání cover verzí písní je oblast problematiky získávání informací z hudby, která se zabývá úkolem rozpoznat, zda dvě odlišné audio nahrávky obsahují různé verze téže písně. Jelikož cover verze se mohou lišit v tempu, tónině, instrumentaci a dalších vlastnostech, bylo během uplynulých let vytvořeno mnoho důmyslných příznaků vhodných pro tento účel. Pro- vedli jsme důkladnou analýzu 32 příznaků použitých v pracech zabývajících se touto problematikou, přičemž rozlišujeme příznaky přesné a škálovatelné. Přesné příznaky jsou založeny na sekvencích harmonických deskriptorů (ty- picky jsou to tzv. chroma“ vektory) a vedou k lepším výsledkům, avšak ” za cenu vyšší výpočetní náročnosti. Škálovatelné příznaky mají malou kon- stantní velikost a zachycují pouze obecné rysy dané audio nahrávky, díky čemuž je jejich výpočet rychlý a hodí se tak pro použití s velkými data- sety. Vybrali jsme 7 škálovatelných a 3 přesné příznaky, které jsme použili pro konstrukci našeho dvouúrovňového systému pro rozpoznávání cover verzí, přičemž škálovatelné příznaky jsou použity na první úrovni k prořezání data- setu a přesné na druhé úrovní pro zpřesnění výsledků. Dva různé modely stro- jového učení jsou použity pro zkombinování škálovatelných resp. přesných příznaků. Pro analýzu příznaků a ohodnocení našeho systému jsme použili Million Song Dataset. Experimenty ukázaly, že škálovatelné příznaky dosahují lepších výsledků než ty přesné, což nás vedlo k rozhodnutí použít v našem systému pouze těchto 7 škálovatelných příznaků. Výsledky takto upraveného systému jsou srovnatelné s nejvýkonnějšími metodami testovanými na tomto data- setu. Následuje analýza překvapivě špatných výsledků přesných příznaků, na jejímž základě jsme dospěli k závěru, že na vině je pravděpodobně nižší kvalita použitého datasetu a že škálovatelné příznaky vykazují pozoruhodnou robustnost vůči nízké kvalitě dat.
Abstract v angličtině:
Abstract: Cover song identification is a field of music information retrieval where the task is to determine whether two different audio tracks represent different versions of the same underlying song. Since covers might differ in tempo, key, instrumentation and other characteristics, many clever features have been developed over the years. We perform a rigorous analysis of 32 features used in related works while distinguishing between exact and scalable features. The former are based on a harmonic descriptor time series (typically chroma vectors) and offer better performance at the cost of computation time. The latter have a small constant size and only capture global phenomena in the track, making them fast to compute and suitable for use with large datasets. We then select 7 scalable and 3 exact features to build our own two-level system, with the scalable features used on the first level to prune the dataset and the exact on the second level to refine the results. Two distinct machine learning models are used to combine the scalable resp. exact features. We perform the analysis and the evaluation of our system on the Million Song Dataset. The experiments show the exact features being outperformed by the scalable ones, which lead us to a decision to only use the 7 scalable features in our system. The performance of this model is comparable with other state-of-the-art methods tested on the same dataset. The surprisingly poor performance of exact features is discussed and we conclude that the main culprit is probably the inferior quality of the descriptors used in the dataset and that the scalable features manifest remarkable robustness to the lower quality of the data.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Bc. Petr Martišek 4.53 MB
Stáhnout Příloha k práci Bc. Petr Martišek 61.5 MB
Stáhnout Abstrakt v českém jazyce Bc. Petr Martišek 42 kB
Stáhnout Abstrakt anglicky Bc. Petr Martišek 41 kB
Stáhnout Posudek vedoucího Mgr. Ladislav Maršík 42 kB
Stáhnout Posudek oponenta Mgr. Jan Hajič 52 kB
Stáhnout Záznam o průběhu obhajoby doc. RNDr. Iveta Mrázová, CSc. 152 kB