Erdélyi magyar népzene osztályozása
konvolúciós neurális hálókkal

Kiss Anna

Témavezetők:

Bodó Zalán és Sulyok Csaba

Babeș-Bolyai Tudományegyetem

A népzenekutatás

A népdal öntudatlanul működő természeti erő átalakító munkájának eredménye: minden tanultságtól ment embertömeg ösztönszerű alkotása. Ép olyan természeti tünemény, mint pl. az állat- vagy növényvilág különféle megnyilvánuló formái.

Bartók Béla, A magyar népdal (1924)

Bartók Béla és Kodály Zoltán

A népzenekutatás célja (Bartók, 1924)

  1. népdalok tudományos rendszerbe foglalt gyűjteményét létesíteni
  2. összehasonlítás alapján megállapítani az egyes zenei stílusokat, eredetükre rávilágítani

Hol segíthet ebben a gépi tanulás?

  1. a betanított osztályozók
    → címkézetlen adatok kategorizálása
  2. modellek eredményének vizsgálata → új hipotézisek felállítása, megfigyelések igazolása

⇒ a kutatás célja: erdélyi népzenei régiók felismerése a gépi tanulás módszereivel

Az adathalmaz

A felhasznált felvételek többsége Kallós Zoltán gyűjtéseinek része (MTA Zenetudományi Intézet Online Adatbázisai)

Az adathalmaz - régiók

Hanganyagtól a tanulási adathalmazig

  1. 30 másodperc hosszú szegmensekre darabolás
  2. Ablakolt Fourier Transzformáció (STFT)
  3. Mel-szűrők alkalmazása

a) STFT

b) Mel-háromszögszűrők

Mel spektrogram

koboz

furulya és ütőgardon

Konvolúciós neurális hálók

Architektúrák

  • TCA: 1D-s kernelek és max-pooling az idő-tengely mentén
  • FCA: az első réteg kernelei a frekvencia tartalmat egy sávba sűrítik; következő rétegeken 1D-s konvolúció az idő-tengely mentén
  • BBA: fekete doboz, 2D-s kernelek
  • CRNN: konvolúciós visszacsatolt háló
    • konvolúciós rész: 2D-s kernelek elemi jellemzők
    • visszacsatolások: időben nagyobb kiterjedésű motívumok
  • TFA: kombinált modell, egy idő-tengely mentén és egy frekvencia-tengely mentén konvolváló architektúra kimeneteinek összegzése

! az utolsó két réteg minden esetben teljesen összekapcsolt (fully-connected)

Kísérletek

A három legnépesebb osztályon: Mezőség, Székelyföld, Moldva

  • kernelek alakjának módosítása
  • rétegek számának növelése
  • dupla konvolúció alkalmazása
  • dropout
  • batch normalization (kötegenkénti normalizálás)
  • cyclical learning rate (ciklikus tanulási ráta)

TCA

CRNN

réteg típusa kernel alakja réteg mélysége
conv 1 × 16 33
mp 1 × 4
conv 1 × 16 33
mp 1 × 5
conv 1 × 4 66
mp 1 × 8
conv 1 × 4 66
mp 1 × 8
fc + dropout 0.5 400
fc + dropout 0.5 400
réteg típusa kernel alakja réteg
mélysége
2 × conv 3 × 3 33
mp 2 × 2
2 × conv 3 × 3 33
mp 3 × 3
2 × conv 3 × 3 66
mp 4 × 4
2 × conv 3 × 3 66
mp 4 × 4
LSTM + dropout 0.1 60
LSTM + dropout 0.1 60

Eredmények

Modell F1-mérték
TCA 0.6
CRNN 0.54
TFA 0.52
BBA 0.47
FCA 0.45

4-szeres keresztvalidáció a teljes adathalmazon

Eredmények

TCA

CRNN

Következtetések

  • időbeli jellemzőket felismerő architektúrák sikeressége → az erdélyi népzenében a régiókat a ritmus jobban meghatározza, mint a melodikus tartalom
  • elszigetelt régiókat jobban, közeli régiókat kevésbé tudnak megkülönböztetni a modellek
  • Székelyföld és Bukovina népzenei anyagának hasonlóságát az osztályozók eredményei is tükrözik

 

⇒ a konvolúciós neurális hálók képesek lényeges népzenei jellemzők felismerésére

Köszönöm a figyelmet!

Made with Slides.com