Feature Evaluation for Scalable Cover Song Identification Using Machine Learning
Název práce v češtině: | Ohodnocení příznaků pro rozpoznávání cover verzí písní pomocí technik strojového učení |
---|---|
Název v anglickém jazyce: | Feature Evaluation for Scalable Cover Song Identification Using Machine Learning |
Klíčová slova: | music information retrieval, rozpoznávání cover verzí písní, strojové učení, ohodnocení příznaků |
Klíčová slova anglicky: | music information retrieval, cover song identification, machine learning, feature evaluation |
Akademický rok vypsání: | 2016/2017 |
Typ práce: | diplomová práce |
Jazyk práce: | angličtina |
Ústav: | Katedra softwarového inženýrství (32-KSI) |
Vedoucí / školitel: | RNDr. Ladislav Maršík, Ph.D. |
Řešitel: | skrytý![]() |
Datum přihlášení: | 25.11.2016 |
Datum zadání: | 30.11.2016 |
Datum potvrzení stud. oddělením: | 09.03.2017 |
Datum a čas obhajoby: | 10.06.2019 09:00 |
Datum odevzdání elektronické podoby: | 09.05.2019 |
Datum odevzdání tištěné podoby: | 10.05.2019 |
Datum proběhlé obhajoby: | 10.06.2019 |
Oponenti: | Mgr. Jan Hajič, Ph.D. |
Zásady pro vypracování |
Cover song identification is a task within the area of music information retrieval, where the goal is to recognize covers, i.e. to determine whether two audio tracks are different versions of the same song or whether they are two completely different musical pieces. The most common model for this task is the query-by-example model, where an audio track is used as a query and the goal is to output a list of probable covers sorted by the decreasing probability. The aim of the thesis is to evaluate the audio features previously used for this task and study their relevance and importance using selected methods of machine learning and statistics. Then, using the results gained in the analysis, a specialized model for cover song identification is proposed. Retrieval accuracy of the final system is compared to the state-of-the-art cover song identification systems (Bertin-Mahieux and Ellis [1], Khadkevich and Omologo [2]).
The studied audio features are divided into two classes: 1) Scalable - fast to compute, simple, but with lower discriminatory power. 2) Precise - slow to compute, more complex, infeasible for large datasets, but more accurate. Both classes are studied separately. The resulting model then uses a two-level hierarchical structure inspired by Osmalskyj et al. [3], where the simple features are used to prune the dataset and the complex features are then employed to refine the results. The training and the evaluation of the model is done using the Million Song Dataset [4], specifically the subset labelled Second Hand Songs Dataset, which is dedicated to the task of cover song identification. |
Seznam odborné literatury |
[1] Bertin-Mahieux, T. and Ellis, D. P. Large-Scale Cover Song Recognition Using the 2D Fourier Transform Magnitude. In: ISMIR 2012
[2] Khadkevich, M. and Omologo, M. Large-Scale Cover Song Identification Using Chord Profiles. In: ISMIR 2013 [3] Osmalsky, J., Van Droogenbroeck, M. and Embrechts, J. J. Enhancing Cover Song Identification with Hierarchical Rank Aggregation. In: ISMIR 2016 [4] Bertin-Mahieux, T., Ellis, D. P. W., Whitman, B. and Lamere, P. The Million Song Dataset. In: ISMIR 2011 |
Předběžná náplň práce |
Překlad zadání do češtiny:
Rozpoznávání cover verzí písní je jeden z problémů v odvětví music information retrieval, u kterého je cílem automaticky rozpoznat cover verze, t.j. rozhodnout, zda dvě audio nahrávky jsou různé verze téže písně, nebo zda se jedná o dvě zcela odlišné skladby. Nejběžnějším modelem tohoto problému je tzv. query-by-example model, kde je předložena audio nahrávka jako vyhledávací dotaz a cílem je vypsat možné cover verze seřazené sestupně podle pravděpodobnosti. Cílem této práce je vyhodnocení audio příznaků použitých v předchozích pracích na toto téma a prozkoumání jejich významnosti za pomoci vybraných metod strojového učení a statistiky. Na základě výsledků této analýzy je navržen specializovaný model pro rozpoznávání cover verzí. Výsledný systém je porovnán s nejmodernějšími systémy v této oblasti (Bertin-Mahieux & Ellis [1], Khadkevich & Omologo [2]). Zkoumané audio příznaky jsou rozděleny do dvou tříd: 1) Škálovatelné - efektivní výpočet, jednoduché, avšak s nižší rozlišovací schopností. 2) Přesné - pomalý výpočet, složitější, nepoužitelné pro velké datasety, ale mnohem přesnější. Obě třídy příznaků jsou analyzovány zvlášť. Výsledný model pak využívá dvouúrovňovou hierarchickou strukturu inspirovanou Osmalským a kol. [3], přičemž škálovatelné příznaky jsou použity pro prořezání datasetu a výsledná redukovaná množina je pak zpracována pomocí přesných příznaků. Pro učení a vyhodnocení modelu používáme Million Song Dataset [4], konkrétně jeho podmnožinu označenou Second Hand Songs Dataset, která byla vyčleněna právě pro problém rozpoznávání cover verzí. |