Erdélyi magyar népzene osztályozása
konvolúciós neurális hálókkal
Kiss Anna
Témavezetők:
Bodó Zalán és Sulyok Csaba
6. Digitális Székelyföld Konferencia
2018. október 19.
A népzenekutatás
A népdal öntudatlanul működő természeti erő átalakító munkájának eredménye: minden tanultságtól ment embertömeg ösztönszerű alkotása. Ép olyan természeti tünemény, mint pl. az állat- vagy növényvilág különféle megnyilvánuló formái.
Bartók Béla, A magyar népdal (1924)
Bartók Béla és Kodály Zoltán
1908
A népzenekutatás célja (Bartók, 1924)
- népdalok tudományos rendszerbe foglalt gyűjteményét létesíteni
- összehasonlítás alapján megállapítani az egyes zenei stílusokat, eredetükre rávilágítani
Hol segíthet ebben a gépi tanulás?
- a betanított osztályozók
→ címkézetlen adatok kategorizálása - modellek eredményének vizsgálata → új hipotézisek felállítása, megfigyelések igazolása
⇒ a kutatás célja: erdélyi népzenei régiók felismerése a felügyelt gépi tanulás módszereivel
Az adathalmaz
- A felhasznált felvételek többsége Kallós Zoltán gyűjtéseinek része (MTA Zenetudományi Intézet Online Adatbázisai)
- Címkézés - régiók szerint
Hanganyagtól a tanulási adathalmazig
- 30 másodperc hosszú szegmensekre darabolás
- Ablakolt Fourier Transzformáció (STFT)
- Mel-szűrők alkalmazása
a) STFT
b) Mel-háromszögszűrők
Mel spektrogram
koboz
furulya és ütőgardon
Konvolúciós neurális hálók
Architektúrák
- idő-architektúra: 1D-s konvolúció az idő-tengely mentén
- frekvenia-architektúra: 1D-s konvolúció a frekvencia-tengely mentén
- fekete doboz: 2D-s szűrők
-
konvolúciós visszacsatolt háló
- konvolúciós rész: 2D-s szűrők elemi jellemzők
- visszacsatolások: időben nagyobb kiterjedésű motívumok
- kombinált modell: egy idő-tengely mentén és egy frekvencia-tengely mentén konvolváló architektúra kimeneteinek összegzése
! az utolsó két réteg minden esetben teljesen összekapcsolt (fully-connected)
Kísérletek
A három legnépesebb osztályon: Mezőség, Székelyföld, Moldva
- kernelek alakjának módosítása
- rétegek számának növelése
- dupla konvolúció alkalmazása
- dropout
- batch normalization (kötegenkénti normalizálás)
- cyclical learning rate (ciklikus tanulási ráta)
idő-architektúra
réteg típusa | kernel alakja | réteg mélysége |
---|---|---|
conv | 1 × 16 | 33 |
mp | 1 × 4 | |
conv | 1 × 16 | 33 |
mp | 1 × 5 | |
conv | 1 × 4 | 66 |
mp | 1 × 8 | |
conv | 1 × 4 | 66 |
mp | 1 × 8 | |
fc + dropout 0.5 | 400 | |
fc + dropout 0.5 | 400 |
réteg típusa | kernel alakja | réteg mélysége |
---|---|---|
2 × conv | 3 × 3 | 33 |
mp | 2 × 2 | |
2 × conv | 3 × 3 | 33 |
mp | 3 × 3 | |
2 × conv | 3 × 3 | 66 |
mp | 4 × 4 | |
2 × conv | 3 × 3 | 66 |
mp | 4 × 4 | |
LSTM + dropout 0.1 | 60 | |
LSTM + dropout 0.1 | 60 |
visszacsatolt háló
Eredmények
Architektúra | Pontosság | Visszahívás | F1-mérték |
---|---|---|---|
idő | 0.61 | 0.61 | 0.6 |
visszacsatolt | 0.54 | 0.55 | 0.54 |
kombinált | 0.53 | 0.54 | 0.52 |
fekete-doboz | 0.49 | 0.48 | 0.47 |
frekvencia | 0.45 | 0.46 | 0.45 |
4-szeres keresztvalidáció a teljes adathalmazon
Eredmények
idő-architektúra
visszacsatolt háló
Következtetések
- időbeli jellemzőket felismerő architektúrák sikeressége → az erdélyi népzenében a régiókat a ritmus jobban meghatározza, mint a melodikus tartalom
- elszigetelt régiókat jobban, közeli régiókat kevésbé tudnak megkülönböztetni a modellek
- Székelyföld és Bukovina népzenei anyagának hasonlóságát az osztályozók eredményei is tükrözik
⇒ a konvolúciós neurális hálók képesek lényeges népzenei jellemzők felismerésére
Köszönöm a figyelmet!
Erdélyi magyar népzene osztályozása konvolúciós neurális hálókkal
By Anna Kiss
Erdélyi magyar népzene osztályozása konvolúciós neurális hálókkal
- 1,138