Költséghatékony osztályozás:

a félig felügyelt gépi tanuló algoritmusok

BODÓ ZALÁN, Matematika és Informatika Kar, BBTE

Gólyatábor, 2016

Gépi tanulás: felügyelt módszerek

tanulási példák

betanult modell

Példa: kutyák vs macskák

(     ,kutya)

(       ,kutya)

(       ,macska)

(       ,macska)

\hat{f}(x)
f^(x)\hat{f}(x)
x
xx
y
yy

Osztályozási feladatok - példák

Levélszemét kiszűrése

Optikai karakterfelismerés (OCR) / digitalizálás

Kézírás-felismerés

Zenei stílus/műfaj automatikus meghatározása

  • nagyon nehéz feladat
  • sok műfaj, szubjektív besorolás stb.
  • 2004-es tanulmány: 76%-os egyezés (30 s)

Félig felügyelt tanulás

= címkézett adatok + címkézetlen adatok

1. osztály

2. osztály

?

2. osztály

Címkepropagálás

  • ötlet: propagáljuk a címkéket a címkézett pontoktól (adatoktól) a címkézett pontok (adatok) felé a pontok (adatok) hasonlóságának függvényében
  • azaz minél hasonlóbbak (közelibbek) egymáshoz, annál nagyobb valószínűséggel
Y_{i} = P_{1i}\cdot Y_{1} + P_{2i}\cdot Y_{2} + \ldots + P_{ni}\cdot Y_{n}
Yi=P1iY1+P2iY2++PniYnY_{i} = P_{1i}\cdot Y_{1} + P_{2i}\cdot Y_{2} + \ldots + P_{ni}\cdot Y_{n}
P_{ij} =
Pij=P_{ij} =
P_{ij} =
Pij=P_{ij} =

annak valószínűsége, hogy az i. pontból átmegyünk a j. pontba

i és j hasonlósága

i és az összes pont hasonlóságának összege

Megjegyzések (csak a teljesség kedvéért)

 

  • szükséges a sorok normalizálása a P mátrixban, máskülönben az algoritmus nem konvergál
    (jó hír: ezt elegendő egyszer elvégezni)
  • a címkék (y-ok) kezdeti megválasztása tetszőleges, viszont befolyásolja a konvergencia sebességét
  • létezik analitikus megoldása is a problémának

Példa

Köszönöm a figyelmet!

Kérdések?

Költséghatékony osztályozás 2

By Zalan Bodo

Költséghatékony osztályozás 2

  • 423