Zastosowanie systemów wieloklasyfikatorowych

do diagnozowania białaczki u dzieci

Michał Bieroński

prof. dr hab. inż. Marek Kurzyński

Agenda

  1. Cel pracy
  2. Multiklasyfikatory
  3. Implementacja
  4. Badania
  5. Podsumowanie

Cel pracy

  • Optymalizacja jakości klasyfikacji
  • Uzyskanie zadowalających wyników klasyfikacji
  • Porównanie algorytmów wieloklasyfikatorowych

Multiklasyfikatory

Implementacja

Badania

głosowania

  • S - SVC (Maszyna wektorów nośnych)
  • K - KNN (K-najbliższych sąsiadów)
  • L - LogisticRegression (Regresja logistyczna)
  • G - GaussianNB (Naiwny Bayes)
  • D - DecissionTree (Drzewo decyzyjne)
  • M - MLP (Wielowarstwowy perceptrom)
  • Tendencyjna przewaga głosowania ważonego
  • Najlepszy wynik ważonego: 41.7%
  • Najlepszy wynik nieważonego: 42.2%   (komb. SLD)

Losowy las

własna implementacja

  • Najlepszy wynik 40%
  • Najlepsza kombinacja: K = 90, liczba drzew = 160
  • Wersja nr 2: najlepszy wynik 39.5% (liczba drzew = 30)

Losowy las

implementacja biblioteczna

  • Najlepszy wynik 46%
  • Najlepsza kombinacja:                                                      Maksymalna głębokość = 7, liczba drzew = 165

Badania

kombinatory elementarne

  • S - SVC (Maszyna wektorów nośnych)
  • K - KNN (K-najbliższych sąsiadów)
  • L - LogisticRegression (Regresja logistyczna)
  • G - GaussianNB (Naiwny Bayes)
  • D - DecissionTree (Drzewo decyzyjne)
  • M - MLP (Wielowarstwowy perceptrom)
  • Tendencyjna przewaga reguły mediany
  • Po medianie króluje reguła sumy
  • Najlepszy wynik (suma): 41.9% (komb. SKDM)
  • Najlepszy wynik (mediana): 41.7%

Badania

selekcja statyczna

  • S - SVC (Maszyna wektorów nośnych)
  • K - KNN (K-najbliższych sąsiadów)
  • L - LogisticRegression (Regresja logistyczna)
  • G - GaussianNB (Naiwny Bayes)
  • D - DecissionTree (Drzewo decyzyjne)
  • M - MLP (Wielowarstwowy perceptrom)
  • Za dużo klastrów - słabsze wyniki
  • Najlepszy wynik:
    • 6 klastrów
    • kombinacja SKGDM
    • jakość 41%

Badania

selekcja dynamiczna

  • Nieznaczny wpływ liczby sąsiadów
  • Zła kombinacja niezależnie od innych parametrów daje złe wyniki
  • Lepsze wyniki dla zakresów k 2-20
  • Najlepszy wynik:
    • liczba sąsiadów - 6
    • kombinacja SKDM
    • jakość 40.5%
  • S - SVC (Maszyna wektorów nośnych)
  • K - KNN (K-najbliższych sąsiadów)
  • L - LogisticRegression (Regresja logistyczna)
  • G - GaussianNB (Naiwny Bayes)
  • D - DecissionTree (Drzewo decyzyjne)
  • M - MLP (Wielowarstwowy perceptrom)

Podsumowanie

Podsumowanie

  • Różnica pomiędzy najlepszym zwykłym a multiklasyfikatorem - 7.9%
  • Różnica pomiędzy najsłabszym zwykłym a multiklasyfikatorem - 15%
  • Kiedy stosować?
    • inne metody zawodzą
    • stabilizacja niestabilnych model (drzewa, sieci)
    • uniwersalny model

Enseble2

By bierus

Enseble2

  • 319