Költséghatékony osztályozás:
a félig felügyelt gépi tanuló algoritmusok
BODÓ ZALÁN, Matematika és Informatika Kar, BBTE
Gólyatábor, 2016
Gépi tanulás: felügyelt módszerek
tanulási példák
betanult modell
Példa: kutyák vs macskák
( ,kutya)
( ,kutya)
( ,macska)
( ,macska)
\hat{f}(x)
f^(x)
x
x
y
y
Osztályozási feladatok - példák
Levélszemét kiszűrése
Optikai karakterfelismerés (OCR) / digitalizálás
Kézírás-felismerés
Zenei stílus/műfaj automatikus meghatározása
- nagyon nehéz feladat
- sok műfaj, szubjektív besorolás stb.
- 2004-es tanulmány: 76%-os egyezés (30 s)
Félig felügyelt tanulás
= címkézett adatok + címkézetlen adatok
1. osztály
2. osztály
?
2. osztály
Címkepropagálás
- ötlet: propagáljuk a címkéket a címkézett pontoktól (adatoktól) a címkézett pontok (adatok) felé a pontok (adatok) hasonlóságának függvényében
- azaz minél hasonlóbbak (közelibbek) egymáshoz, annál nagyobb valószínűséggel
Y_{i} = P_{1i}\cdot Y_{1} + P_{2i}\cdot Y_{2} + \ldots + P_{ni}\cdot Y_{n}
Yi=P1i⋅Y1+P2i⋅Y2+…+Pni⋅Yn
P_{ij} =
Pij=
P_{ij} =
Pij=
annak valószínűsége, hogy az i. pontból átmegyünk a j. pontba
i és j hasonlósága
i és az összes pont hasonlóságának összege
Megjegyzések (csak a teljesség kedvéért)
- szükséges a sorok normalizálása a P mátrixban, máskülönben az algoritmus nem konvergál
(jó hír: ezt elegendő egyszer elvégezni) - a címkék (y-ok) kezdeti megválasztása tetszőleges, viszont befolyásolja a konvergencia sebességét
- létezik analitikus megoldása is a problémának
Példa
Köszönöm a figyelmet!
Kérdések?
Költséghatékony osztályozás 2
By Zalan Bodo
Költséghatékony osztályozás 2
- 423