Erdélyi magyar népzene osztályozása
konvolúciós neurális hálókkal
Kiss Anna
Témavezetők:
Bodó Zalán és Sulyok Csaba
Babeș-Bolyai Tudományegyetem
A népzenekutatás
A népdal öntudatlanul működő természeti erő átalakító munkájának eredménye: minden tanultságtól ment embertömeg ösztönszerű alkotása. Ép olyan természeti tünemény, mint pl. az állat- vagy növényvilág különféle megnyilvánuló formái.
Bartók Béla, A magyar népdal (1924)
Bartók Béla és Kodály Zoltán
A népzenekutatás célja (Bartók, 1924)
- népdalok tudományos rendszerbe foglalt gyűjteményét létesíteni
- összehasonlítás alapján megállapítani az egyes zenei stílusokat, eredetükre rávilágítani
Hol segíthet ebben a gépi tanulás?
- a betanított osztályozók
→ címkézetlen adatok kategorizálása - modellek eredményének vizsgálata → új hipotézisek felállítása, megfigyelések igazolása
⇒ a kutatás célja: erdélyi népzenei régiók felismerése a gépi tanulás módszereivel
Az adathalmaz
A felhasznált felvételek többsége Kallós Zoltán gyűjtéseinek része (MTA Zenetudományi Intézet Online Adatbázisai)
Az adathalmaz - régiók
Hanganyagtól a tanulási adathalmazig
- 30 másodperc hosszú szegmensekre darabolás
- Ablakolt Fourier Transzformáció (STFT)
- Mel-szűrők alkalmazása
a) STFT
b) Mel-háromszögszűrők
Mel spektrogram
koboz
furulya és ütőgardon
Konvolúciós neurális hálók
Architektúrák
- TCA: 1D-s kernelek és max-pooling az idő-tengely mentén
- FCA: az első réteg kernelei a frekvencia tartalmat egy sávba sűrítik; következő rétegeken 1D-s konvolúció az idő-tengely mentén
- BBA: fekete doboz, 2D-s kernelek
-
CRNN: konvolúciós visszacsatolt háló
- konvolúciós rész: 2D-s kernelek elemi jellemzők
- visszacsatolások: időben nagyobb kiterjedésű motívumok
- TFA: kombinált modell, egy idő-tengely mentén és egy frekvencia-tengely mentén konvolváló architektúra kimeneteinek összegzése
! az utolsó két réteg minden esetben teljesen összekapcsolt (fully-connected)
Kísérletek
A három legnépesebb osztályon: Mezőség, Székelyföld, Moldva
- kernelek alakjának módosítása
- rétegek számának növelése
- dupla konvolúció alkalmazása
- dropout
- batch normalization (kötegenkénti normalizálás)
- cyclical learning rate (ciklikus tanulási ráta)
TCA
CRNN
réteg típusa | kernel alakja | réteg mélysége |
---|---|---|
conv | 1 × 16 | 33 |
mp | 1 × 4 | |
conv | 1 × 16 | 33 |
mp | 1 × 5 | |
conv | 1 × 4 | 66 |
mp | 1 × 8 | |
conv | 1 × 4 | 66 |
mp | 1 × 8 | |
fc + dropout 0.5 | 400 | |
fc + dropout 0.5 | 400 |
réteg típusa | kernel alakja | réteg mélysége |
---|---|---|
2 × conv | 3 × 3 | 33 |
mp | 2 × 2 | |
2 × conv | 3 × 3 | 33 |
mp | 3 × 3 | |
2 × conv | 3 × 3 | 66 |
mp | 4 × 4 | |
2 × conv | 3 × 3 | 66 |
mp | 4 × 4 | |
LSTM + dropout 0.1 | 60 | |
LSTM + dropout 0.1 | 60 |
Eredmények
Modell | F1-mérték |
---|---|
TCA | 0.6 |
CRNN | 0.54 |
TFA | 0.52 |
BBA | 0.47 |
FCA | 0.45 |
4-szeres keresztvalidáció a teljes adathalmazon
Eredmények
TCA
CRNN
Következtetések
- időbeli jellemzőket felismerő architektúrák sikeressége → az erdélyi népzenében a régiókat a ritmus jobban meghatározza, mint a melodikus tartalom
- elszigetelt régiókat jobban, közeli régiókat kevésbé tudnak megkülönböztetni a modellek
- Székelyföld és Bukovina népzenei anyagának hasonlóságát az osztályozók eredményei is tükrözik
⇒ a konvolúciós neurális hálók képesek lényeges népzenei jellemzők felismerésére
Köszönöm a figyelmet!
Erdélyi magyar népzene osztályozása konvolúciós neurális hálókkal
By Anna Kiss
Erdélyi magyar népzene osztályozása konvolúciós neurális hálókkal
- 928