velikost textu

Morpho-Colorimetric and Non-Parametric Analyses in Statistical Classification of Vascular Flora (Classification in Image Analysis)

Upozornění: Informace získané z popisných dat či souborů uložených v Repozitáři závěrečných prací nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora.
Název:
Morpho-Colorimetric and Non-Parametric Analyses in Statistical Classification of Vascular Flora (Classification in Image Analysis)
Typ:
Disertační práce
Autor:
Luca Frigau, Ph.D.
Školitel:
prof. RNDr. Jaromír Antoch, CSc.
Oponenti:
prof. RNDr. Gejza Dohnal, CSc.
Prof. Dr. Adalbert F.X. Wilhelm
Id práce:
174986
Fakulta:
Matematicko-fyzikální fakulta (MFF)
Pracoviště:
Katedra pravděpodobnosti a matematické statistiky (32-KPMS)
Program studia:
Matematika (P1101)
Obor studia:
Pravděpodobnost a matematická statistika (4M4)
Přidělovaný titul:
Ph.D.
Datum obhajoby:
30. 3. 2016
Výsledek obhajoby:
Prospěl/a
Jazyk práce:
Angličtina
Abstrakt:
Luca Frigau Abstrakt PhD disertace Tato dizertace se zabývá statistickými aspekty klasifikace botanických objektů, v daném případě naske- novaných obrazů semen rostlin. Soustřed’uje se především na kvalitu klasifikace a na automatizaci celého procesu klasifikace. Snahou je též odstranit rozpory způsobené lidskými chybami. V první kapitole se práce soustřed’uje na kroky potřebné k získání statistických dat z naskenovaných obrazů. Jedná se o postupy umožňující zvýšení kontrastu obrazů, detekci obrysů, či odstranění šumu. V druhé kapitole je pozornost soustředěna na nástroje moderní morfometrie a teoretické koncepty analýzy tvarů. Soustřed’ujeme se především na koncept význačných značek a jejich matematické trans- formace, jež umožňují data popsat ať již pomocí Kendalových či Booksteinových souřadnic. Vedle toho jsou použity postupy Fourierovy analýzy, neboť umožňují velmi úsporně popsat geometrickou informaci o tvarech zkoumaných objektů. Ve třetí kapitole je prezentován originální přístup umožňující kombinaci tzv. klasifikačních stromů. Tento přístup reaguje na to, že v daném kontextu je třeba klasifikovat do velkého počtu tříd (řádově desítky až stovky). Navržený přístup kombinuje dichotomické dělení a využívá predikční kvality jednot- livých klasifikátorů, které jsou kombinovány. Praktické výpočty na reálných botanických datech ukázaly, že zvolený přístup zlepšuje jak predikční vlastnosti, tak spolehlivost navrženého klasifikátoru, a činí jej pro danou situaci vhodným. Ve čtvrté kapitole jsou prezentovány originální výsledky týkající se ohodnocení spolehlivosti navržené- ho klasifikačního pravidla. Pro tento účel je klasifikátor opětovně trénován na tzv. bootstrapových datech. Dále je použit beta regresní model umožňující získat váhy pro jednotlivé bootrapem získané klasifikátory. Na jejich základě je poté konstruován index spolehlivosti. Navržený přístup je testován na reálných datech. V páté kapitola, a mnohem podrobněji v Apendixu A, jsou popsány funkce v jazyce R umožňující provádět klasifikaci podle postupů popsaných v předešlých kapitolách a ohodnotit jejich spolehlivost. Poslední kapitola je aplikační a ukazuje jak navržené postupu fungují při klasifikaci reálných bota- nických dat. Jedná se o data z germaplasmové banky semen shromážděná v Cagliari. Výsledky jsou porovnány s jinými přístupy dříve navrženými v literatuře pro klasifikaci podobných objektů. Je též diskutována eficience zvoleného přístupu.
Abstract v angličtině:
Luca Frigau Abstract of PhD thesis This dissertation deals with statistical methodologies to apply to morphological classification of seeds through extracting information directly from their digital images. It concentrates more on the classifi- cation task, trying to enhance the quality of prediction, and on the automatizing of the classification process. These tasks are very important in botany because they avoid human contradictions in seed classification and to save a lot of time to specialized botanists. Firstly we focused on describing all stages necessary to move from a picture containing raw information of scanned objects to a data matrix usable as input for further statistical analyses. We illustrated how to convert an image so as to enhance its inner contrast in order to get easier the image segmentation. It has been introduced an approach that adapts a widely used method for detecting moving objects from video, called background subtraction (foreground detection), to image segmentation framework. It has been shown how it assists segmentation process to get good results, and allows to automate the process when foreground color of images is not constant, as well as speeding it up significantly. Then methods for enhancing quality of objects and removing residual noise have been illustrated. At the end of the first chapter, a kind of general features that characterized the objects are explained, pointing out which information they convey. In the second chapter we focused on tools used by modern morphometrics and the theoretical con- cepts of shape analysis. Firstly we explained the concept of landmarks and its importance. Then we showed the different strategies that can be followed so as to remove from the Configuration Space the influences of location, rotation and scale moving to the Shape Space, illustrating step by step how to transform Euclidean coordinates of objects into Kendall’s coordinates and into Bookstein’s coordinates. Furthermore we illustrated General Procrustes Methods, that are used for analyzing distribution of ob- jects optimally superimposed. Then we dealt with Fourier Analysis, a mathematical method widely used in several fields for decomposing and analyzing periodic signals into a weighted sum of simpler sinusoidal component functions, and in our case for summarizing the geometrical information of the object outlines. Finally we described several approaches for fitting a function in case outlines are opened. In the third chapter we presented an original tree approach for combining different classifiers. Since in a classification problem with large number of classes the complexity is high, this algorithm splits the complex problem of classifying among C classes into C-1 sub problems less complex than the original one, each of them classifying between only two classes. It builds a binary tree of C -1 nodes, and places a classification rule in each node, taking advantage of the different prediction capability of the classifiers. Helped by a real dataset, we found that the tree approach proposed can be a useful tool for enhancing the goodness of prediction, although this is not true for every situation, but according to kind of data and type of classifiers. In the fourth chapter we presented an original approach aimed at evaluating the reliability of a classification rule. This task is pursued by re-training the classifier on resampled versions of the original data. User-defined misclassification costs are assigned to the obtained confusion matrices and then used as inputs in a Beta regression model which provides a cost-sensitive weighted classification index. The latter is used jointly with another index measuring dissimilarity in distribution between observed classes and predicted ones. Both index are defined in [0, 1] so that their values can be graphically represented in a [0, 1]2 space. The examination of the points in the [0, 1]2 space for each classifier, computing the convex hull, allows us to evaluate its reliability on the basis of the relationship between the values of both indexes obtained on the original data and on resampled versions of it. Even in this case we tested our original approach on real data, in order to check its operation. In the fifth chapter, and in Appendix A more in details, we presented the R functions we created in order to check the reliability of the original theoretical approaches presented in the previous chapters and to be able to perform the analyses of the next chapter. In the last chapter we applied all theoretical concepts developed in the previous chapters to real botanical data. The data consists in germplasm data, and the main goal was to study how this kind of data respond to morphometrics approaches of classification, comparing the results obtained using different kind of classification algorithms so as to check if and how much their performances of classifi- cation are distance. Furthermore we combined all methods developed into a single automated process, that is resulted consistent and efficient, able to perform morphological classification of seeds extracting information directly from their digital images.
Dokumenty
Stáhnout Dokument Autor Typ Velikost
Stáhnout Text práce Luca Frigau, Ph.D. 13.43 MB
Stáhnout Příloha k práci Luca Frigau, Ph.D. 949 kB
Stáhnout Abstrakt v českém jazyce Luca Frigau, Ph.D. 34 kB
Stáhnout Abstrakt anglicky Luca Frigau, Ph.D. 38 kB
Stáhnout Posudek vedoucího prof. RNDr. Jaromír Antoch, CSc. 123 kB
Stáhnout Posudek oponenta prof. RNDr. Gejza Dohnal, CSc. 199 kB
Stáhnout Posudek oponenta Prof. Dr. Adalbert F.X. Wilhelm 285 kB
Stáhnout Záznam o průběhu obhajoby 152 kB