Zastosowanie systemów wieloklasyfikatorowych

do diagnozowania białaczki u dzieci

Michał Bieroński

prof. dr hab. inż. Marek Kurzyński

Agenda

Cel pracy
Multiklasyfikatory
Implementacja
Badania
Podsumowanie

Cel pracy

Optymalizacja jakości klasyfikacji
Uzyskanie zadowalających wyników klasyfikacji
Porównanie algorytmów wieloklasyfikatorowych

Multiklasyfikatory

Implementacja

Badania

głosowania

S - SVC (Maszyna wektorów nośnych)
K - KNN (K-najbliższych sąsiadów)
L - LogisticRegression (Regresja logistyczna)
G - GaussianNB (Naiwny Bayes)
D - DecissionTree (Drzewo decyzyjne)
M - MLP (Wielowarstwowy perceptrom)

Tendencyjna przewaga głosowania ważonego
Najlepszy wynik ważonego: 41.7%
Najlepszy wynik nieważonego: 42.2% (komb. SLD)

Losowy las

własna implementacja

Najlepszy wynik 40%
Najlepsza kombinacja: K = 90, liczba drzew = 160
Wersja nr 2: najlepszy wynik 39.5% (liczba drzew = 30)

Losowy las

implementacja biblioteczna

Najlepszy wynik 46%
Najlepsza kombinacja: Maksymalna głębokość = 7, liczba drzew = 165

Badania

kombinatory elementarne

S - SVC (Maszyna wektorów nośnych)
K - KNN (K-najbliższych sąsiadów)
L - LogisticRegression (Regresja logistyczna)
G - GaussianNB (Naiwny Bayes)
D - DecissionTree (Drzewo decyzyjne)
M - MLP (Wielowarstwowy perceptrom)

Tendencyjna przewaga reguły mediany
Po medianie króluje reguła sumy
Najlepszy wynik (suma): 41.9% (komb. SKDM)
Najlepszy wynik (mediana): 41.7%

Badania

selekcja statyczna

S - SVC (Maszyna wektorów nośnych)
K - KNN (K-najbliższych sąsiadów)
L - LogisticRegression (Regresja logistyczna)
G - GaussianNB (Naiwny Bayes)
D - DecissionTree (Drzewo decyzyjne)
M - MLP (Wielowarstwowy perceptrom)

Za dużo klastrów - słabsze wyniki
Najlepszy wynik:
- 6 klastrów
- kombinacja SKGDM
- jakość 41%

Badania

selekcja dynamiczna

Nieznaczny wpływ liczby sąsiadów
Zła kombinacja niezależnie od innych parametrów daje złe wyniki
Lepsze wyniki dla zakresów k 2-20
Najlepszy wynik:
- liczba sąsiadów - 6
- kombinacja SKDM
- jakość 40.5%

S - SVC (Maszyna wektorów nośnych)
K - KNN (K-najbliższych sąsiadów)
L - LogisticRegression (Regresja logistyczna)
G - GaussianNB (Naiwny Bayes)
D - DecissionTree (Drzewo decyzyjne)
M - MLP (Wielowarstwowy perceptrom)

Podsumowanie

Podsumowanie

Różnica pomiędzy najlepszym zwykłym a multiklasyfikatorem - 7.9%
Różnica pomiędzy najsłabszym zwykłym a multiklasyfikatorem - 15%
Kiedy stosować?
- inne metody zawodzą
- stabilizacja niestabilnych model (drzewa, sieci)
- uniwersalny model

Enseble2

By bierus

Enseble2

7 years ago
348

bierus