Erdélyi magyar népzene osztályozása
konvolúciós neurális hálókkal

Kiss Anna

Témavezetők:

Bodó Zalán és Sulyok Csaba

6. Digitális Székelyföld Konferencia

2018. október 19.

A népzenekutatás

A népdal öntudatlanul működő természeti erő átalakító munkájának eredménye: minden tanultságtól ment embertömeg ösztönszerű alkotása. Ép olyan természeti tünemény, mint pl. az állat- vagy növényvilág különféle megnyilvánuló formái.

Bartók Béla, A magyar népdal (1924)

Bartók Béla és Kodály Zoltán

A népzenekutatás célja (Bartók, 1924)

  1. népdalok tudományos rendszerbe foglalt gyűjteményét létesíteni
  2. összehasonlítás alapján megállapítani az egyes zenei stílusokat, eredetükre rávilágítani

Hol segíthet ebben a gépi tanulás?

  1. a betanított osztályozók
    → címkézetlen adatok kategorizálása
  2. modellek eredményének vizsgálata → új hipotézisek felállítása, megfigyelések igazolása

⇒ a kutatás célja: erdélyi népzenei régiók felismerése a felügyelt gépi tanulás módszereivel

Az adathalmaz

  • A felhasznált felvételek többsége Kallós Zoltán gyűjtéseinek része (MTA Zenetudományi Intézet Online Adatbázisai)
  • Címkézés - régiók szerint

Hanganyagtól a tanulási adathalmazig

  1. 30 másodperc hosszú szegmensekre darabolás
  2. Ablakolt Fourier Transzformáció (STFT)
  3. Mel-szűrők alkalmazása

a) STFT

b) Mel-háromszögszűrők

Mel spektrogram

koboz

furulya és ütőgardon

Konvolúciós neurális hálók

Architektúrák

  • idő-architektúra: 1D-s konvolúció az idő-tengely mentén
  • frekvenia-architektúra: 1D-s konvolúció a frekvencia-tengely mentén
  • fekete doboz: 2D-s szűrők
  • konvolúciós visszacsatolt háló
    • konvolúciós rész: 2D-s szűrők elemi jellemzők
    • visszacsatolások: időben nagyobb kiterjedésű motívumok
  • kombinált modell: egy idő-tengely mentén és egy frekvencia-tengely mentén konvolváló architektúra kimeneteinek összegzése

! az utolsó két réteg minden esetben teljesen összekapcsolt (fully-connected)

Kísérletek

A három legnépesebb osztályon: Mezőség, Székelyföld, Moldva

  • kernelek alakjának módosítása
  • rétegek számának növelése
  • dupla konvolúció alkalmazása
  • dropout
  • batch normalization (kötegenkénti normalizálás)
  • cyclical learning rate (ciklikus tanulási ráta)

idő-architektúra

réteg típusa kernel alakja réteg mélysége
conv 1 × 16 33
mp 1 × 4
conv 1 × 16 33
mp 1 × 5
conv 1 × 4 66
mp 1 × 8
conv 1 × 4 66
mp 1 × 8
fc + dropout 0.5 400
fc + dropout 0.5 400
réteg típusa kernel alakja réteg
mélysége
2 × conv 3 × 3 33
mp 2 × 2
2 × conv 3 × 3 33
mp 3 × 3
2 × conv 3 × 3 66
mp 4 × 4
2 × conv 3 × 3 66
mp 4 × 4
LSTM + dropout 0.1 60
LSTM + dropout 0.1 60

visszacsatolt háló

Eredmények

Architektúra Pontosság Visszahívás F1-mérték
idő 0.61 0.61 0.6
visszacsatolt 0.54 0.55 0.54
kombinált 0.53 0.54 0.52
fekete-doboz 0.49 0.48 0.47
frekvencia 0.45 0.46 0.45

4-szeres keresztvalidáció a teljes adathalmazon

Eredmények

idő-architektúra

visszacsatolt háló

Következtetések

  • időbeli jellemzőket felismerő architektúrák sikeressége → az erdélyi népzenében a régiókat a ritmus jobban meghatározza, mint a melodikus tartalom
  • elszigetelt régiókat jobban, közeli régiókat kevésbé tudnak megkülönböztetni a modellek
  • Székelyföld és Bukovina népzenei anyagának hasonlóságát az osztályozók eredményei is tükrözik

 

⇒ a konvolúciós neurális hálók képesek lényeges népzenei jellemzők felismerésére

Köszönöm a figyelmet!