Erdélyi magyar népzene osztályozása
konvolúciós neurális hálókkal

Kiss Anna, Bodó Zalán, Sulyok Csaba

A népi kultúra örökségének digitalizációja

2021. március 16.

A népzenekutatás

A népdal öntudatlanul működő természeti erő átalakító munkájának eredménye: minden tanultságtól mentes embertömeg ösztönszerű alkotása. Ép olyan természeti tünemény, mint pl. az állat- vagy növényvilág különféle megnyilvánuló formái.

Bartók Béla, A magyar népdal (1924)

Bartók Béla és Kodály Zoltán

1908

A népzenekutatás célja (Bartók, 1924)

  1. népdalok tudományos rendszerbe foglalt gyűjteményét létesíteni
  2. összehasonlítás alapján megállapítani az egyes zenei stílusokat, eredetükre rávilágítani

Hol segíthet ebben a gépi tanulás?

  1. a betanított osztályozók
    → címkézetlen adatok kategorizálása
  2. modellek eredményének vizsgálata → új hipotézisek felállítása, megfigyelések igazolása

tanulási adathalmaz

teszt adathalmaz

kutya

kutya

tanuló

algoritmus

modell

macska

kutya

macska

a kutatás célja: erdélyi népzenei régiók felismerése a felügyelt gépi tanulás módszereivel

Az adathalmaz

  • MTA Zenetudományi Intézet Online Adatbázisai
    • Kallós Zoltán gyűjtései (3664 db)
    • Publikált népzenei hangfelvételek internetes adatbázisa (5857 db) - Erdélyben rögzített anyagok

Címkézés

Hanganyagtól a tanulási adathalmazig

  1. 30 másodperc hosszú szegmensekre darabolás
  2. Ablakolt Fourier Transzformáció (STFT)
  3. Mel-szűrők alkalmazása

a) STFT

b) Mel-háromszögszűrők

Mel spektrogram

koboz

furulya és ütőgardon

Konvolúciós neurális hálók

Konvolúciós neurális hálók

Konvolúciós neurális hálók

Architektúrák

  • idő-architektúra: 1D-s konvolúció az idő-tengely mentén
  • frekvencia-architektúra: 1D-s konvolúció a frekvencia-tengely mentén
  • fekete doboz: 2D-s szűrők
  • konvolúciós visszacsatolt háló
    • konvolúciós rész: 2D-s szűrők elemi jellemzők
    • visszacsatolások: időben nagyobb kiterjedésű motívumok
  • kombinált modell: egy idő-tengely mentén és egy frekvencia-tengely mentén konvolváló architektúra kimeneteinek összegzése

tanulási adathalmaz

teszt adathalmaz

Gyimes

Mezőség

tanuló

algoritmus

modell

Moldva

Moldva

Moldva

Mezőség

Gyimes

validálás

valós

jelzett

Eredmények

Architektúra F1-mérték
idő 60%
visszacsatolt 54%
kombinált 52%
fekete-doboz 47%
frekvencia 45%
random találgatás 14%

Eredmények

idő-architektúra

Következtetések

  • időbeli jellemzőket felismerő architektúrák sikeressége → az erdélyi népzenében a régiókat a ritmus jobban meghatározza, mint a melodikus tartalom
  • elszigetelt régiókat jobban, közeli régiókat kevésbé tudnak megkülönböztetni a modellek
  • Székelyföld és Bukovina népzenei anyagának hasonlóságát az osztályozók eredményei is tükrözik

 

⇒ a konvolúciós neurális hálók képesek lényeges népzenei jellemzők felismerésére

Köszönöm a figyelmet!

Made with Slides.com