Seminar kognitive Modellierung:
Multinomial Processing Tree Models

Jan Göttmann, M.Sc.

Einführung

  • …bieten Erklärungen für beobachtete Häufigkeiten in Form von Parametern die eine klare psychologisch Interpretation haben
     
  • …diese Parameter repräsentieren Wahrscheinlichkeiten von latenten psychologischen Prozessen (bzw. Zuständen) die menschlichem Verhalten zu Grunde liegen
     
  • trennen und messen den Beitrag dieser verschiedenen psychologischen Prozesse zu beobachteten Häufigkeiten !

MPT-Modelle…

Einführung

Terminlogie & Annahmen

Multinomial…

  • MPT Modelle beschreiben Daten, die einer oder mehreren Multinomialverteilung folgen
  • Multinomialverteilungen beschreiben kategoriale / diskrete Daten ( ja / nein Antworten, Multiple Choice Aufgaben, korrekte/inkorrekte Entscheidungen)


 

Processing…

  • Annahme: Eine finite Anzahl von latenten Prozessen die Beobachteten Antworten erzeugt
  • Ziel: Diese Prozesse durch die geschätzten Parameter zu beschreiben

Tree…

  • Modelle werden als Wahrscheinlichkeitsbäume
    dargestellt

Einführung

Wahrscheinlichkeiten für bestimmte Kategorien, lassen sich anhand des Pfaddiagrammes berechnen. 

  • Innerhalb eines Pfades werden Wahrscheinlichkeiten Multipliziert (bedingte Wahrscheinlichkeiten)
     
  • Unterschiedliche Pfade, die zum gleichen Ergebnis führen, können addiert werden.

Kategorie A

A

B

p_a
1-p_a
1-p_b
p_b

Kategorie B

Kategorie A

Kategorie A

Addition 

Multiplikation

Prinzip

Einführung

P(A) = p_a + (1-p_a)\cdot p_b
P(B) = ?

Gleichungen

Kategorie A

A

B

p_a
1-p_a
1-p_b
p_b

Kategorie B

Kategorie A

Kategorie A

Addition 

Multiplikation

Beispiel MPT Modellierung: Recognition Memory

Paradigma Old vs. New Recognition Memory Test

1. Lernphase
Versuchspersonen müssen zunächst eine Liste von unterschiedlichen Worten lernen („old items“)
 

2. Test Phase
Nun werden Worte in zwei unterschiedlichen Bedingungen präsentiert

  • Alte Worte (bereits gelernt)
  • Neue Worte ( „Lures“)
  • Abhängige Variable ist die Entscheidung zwischen „Alt“ und „Neu“ (dichotom)

Beispiel MPT Modellierung: Recognition Memory

old_correct old_incorrect new_correct new_incorrect
71 29 17 30
84 25 36 18
62 34 20 35
... ... ... ...
... ... ... ...

Daten: Auszählen der Antworten für jede Kategorie

Paradigma Old vs. New Recognition Memory Test

Beispiel MPT Modellierung: Recognition Memory

1-High Threshold Model (Swets, 1963)

p(hit) = r + (1-r) \cdot g

Old Word

recognition

r
1-r

"old"

1-g
g

"new"

"old"

no recognition

guess "old"

guess "new"

1-g
g

"new"

"old"

guess "old"

guess "new"

New Word

p(miss) = (1-r) \cdot (1-g)

Model Equations

Beispiel MPT Modellierung: Recognition Memory

p(hit) = r + (1-r) \cdot g
p(miss) = (1-r) \cdot (1-g)
p(n_1,n_2,...,n_J) = \frac{N!}{n_1!n_2!...n_J!} p_1^{n_1} p_2^{n_2} p_3^{n_3} p_J^{n_J}

Einfaches Multinomiales Modell

  • Daten: Beobachtete Häufigkeiten \(n= (n_1,n_2,...n_J)\)
  • Parameter: Vektor von Kategoriewahrscheinlichkeiten \(p = (p_1,p_2,...p_j)\)
  • Kategoriewahrscheinlichkeiten werden als Funktion der latenten Parameter des Multinomialen Models \(f(\theta)\) ausgedrückt
    • \(p_1 = f_1(\theta_1,\theta_2,...,\theta_S)\)
    • \(p_2 = f_2(\theta_1,\theta_2,...,\theta_S)\)
  • Parameterspace von S latenten Parametern \(\theta_S\) ist \(\Omega \) 
p(n_1,n_2,...,n_J) = \frac{N!}{n_1!n_2!...n_J!} \prod_{j=1}^{n} p_J^{n_J}

Maximum Likelihood Estimation

Likelihood vs. Wahrscheinlichkeit

f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
  • Eine Wahrscheinlichkeitsfunktion beschreibt, wie wahrscheinlich die Daten, gegeben bestimmte Parameter des Modells sind.

Wie hoch ist die Wahrscheinlichkeit, einen IQ zwischen 120 und 140 zu haben ?

Maximum Likelihood Estimation

Likelihood vs. Wahrscheinlichkeit

\mathcal{L}(\mu, \sigma^2 | x_n) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
  • Die Likelihood-Funktion beschreibt die Plausibilität der Parameter eines statistischen Modells, indem sie die Wahrscheinlichkeit der beobachteten Daten unter verschiedenen Parametern des Modells bewertet.

Daten stehen fest, Parameterwerte variieren !

Maximum Likelihood Estimation

\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} \prod_{i=1}^{n} f(x_i;\theta)
  • Der Maximum-Likelihood-Schätzer (MLE) maximiert die Wahrscheinlichkeit, dass die beobachteten Daten unter Annahme eines bestimmten Modells auftreten.

Maximum Likelihood Estimation (MLE)

Maximum Likelihood Estimation

\hat{\mu}_{\text{MLE}} = \arg\max_{\mu} \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}
  • In jeder Iteration des Schätzalgorhithmus (z.B. SIMPLEX), wird die Plausbilität der
    Parameterwerte evaluiert, indem für jeden Datenpunkt die Wahrscheinlichkeit unter den Parametern berechnet wird.

Maximum Likelihood Estimation (MLE)

Maximum Likelihood Estimation

  • Anschließend wird das Produkt aller Wahrscheinlichkeiten gebildet, um die Gesamtwahrscheinlichkeit der Daten
    gegeben den Parametern (=Likelihood) zu berechnen. 
\hat{\mu}_{\text{MLE}} = \arg\max_{\mu} \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}

Passiert in jeder Iteration der Schätzung für alle Parameter-Proposal !

Maximum Likelihood Estimation (MLE)

Maximum Likelihood Estimation

  • Problem: Da durch die Produktbildung sehr kleine Werte bei der Schätzung entstehen, kommt es bei der Berechnung häufig zu numerischen Fehlern
     
  • Daher wird die überwiegend die log-Likelihood (LL) berechnet. Durch den Logarithmus kann anstatt dem Produkt, die Summe gebildet werden, um die Gesamtwahrscheinlichkeit zu berechnen!

Maximum Likelihood Estimation (MLE)

\log \mathcal{L}(\theta) = \sum_{i=1}^{n} \log f(x_i; \theta)

Maximum Likelihood Estimation

  • Auch die log-Likelihoodfunktion hat ihren Peak, wenn p(Data|θ) am größten ist! Die meisten Algorithmen minimieren jedoch die Diskrepanzfunktion !
     
  • Lösung: Tranformation der Likelihood in die Abweichung von Model und Daten:

Maximum Likelihood Estimation (MLE)

\text{Deviance} = -2 \log \mathcal{L}(\theta)

Maximum Likelihood Estimation

 

  • Konsistenz: Mit steigendem Stichprobenumfang konvergieren die Schätzer mit den wahren Populationsparametern
     
  • Erwartungstreue: Der Mittelwert über viele Schätzungen ist gleich dem Populationsparameter
     
  • Effizienz: Die Schätzer zeigen eine minimale Fehlervarianz

 

MLE sind probabilistische Diskrepanzfunktionen!  

Haben im Gegensatz zu RMSE etc. erwünschte statistische Eigenschaften:

Maximum Likelihood Estimation

 

  • Viele Kennwerte, die zur Beruteilung des Modelfit verwendet werden, sind \(\chi^2\)-Verteilt
     
  • Diese können dann mit einem NHST miteinander verglichen werden
     
  • Wird häufig auch als Maß der Abweichung zwischen Daten und Vorhersagen genutzt (z.B. Strukturgleichungsmodellierung)

 

 

 

Modelfit & MLE

Bei (MLE)-Schätzungen können aufgrund der Likelihood unterschiedliche Kennwerte berechnet werden, um Modelle zu vergleichen

Maximum Likelihood Estimation

 

  • Sehr sensitiv für die Stichprobegröße - Höhere Power bei größerer Stichprobe !
     
  • Kein Maß für den Fit, sondern quantifiziert nur Ablehnung der Nullhypothese !
     
  • Kann nur für genestete Modelle verwendet werden (z.B. einfacheres vs. komplexes Modell)
     
  • Normalverteilungsannahme !

 

 

 

Modelfit & MLE

Hautprobleme des Chi-Quadrat Tests:

Maximum Likelihood Estimation

Modelfit & MLE: Likelihood -Ratio Test

  • Der Likelihood-Ratio-Test wird dazu genutzt, Modelle mit einander zu vergleichen (relativer Modelfit)
     
  • Es wird das Verhältnis der Likelihood zweier Modelle berechnet.
     
  • Das Ergebnis ist dann annähernd \(\chi^2\)-Verteilt, es kann ein Signifikanztest durchgeführt werden !
D = -2 \log \left(\frac{L_0}{L_1}\right)
D \sim \chi^2_{k_1 - k_0}

Ist der Test signifikant, ist der Fit des komplexeren Modells besser

D
df
L_0

Likelihood-Ratio

Likelihood einfaches Modell

L_1

Likelihood komplexeres Modell

k_1 - k_0

Maximum Likelihood Estimation

Modelfit & MLE: Informationskriterien

Die weitaus am häufigsten angewandten Fit-Indeces sind das Akaike Informationskriterium (AIC) und das Bayesian Information Criterium (BIC).



 

LL
k
N

Log-Likelihood

Stichprobengröße

AIC = -2 \cdot LL + 2 \cdot k
BIC = -2 \cdot LL + k \cdot log(N)

Anzahl der Modellparameter

  • Genau wie der Likelihood-Ratio Test, werden hier Modelle miteinander verglichen
     
  • Beide Indices bestrafen komplexere Modelle durch die Anzahl der Parameter (k)
     
  • Der BIC zieht weiterhin in Betracht, dass die Stichprobengröße den Fit künstlich erhöht und bestraft dies mit einem zusätzlichen Strafterm für die Stichprobengröße

  •  

Thank you for Your Attention!

@JanGoettmann

github.com/jgman86

jan.goettmann@uni-mainz.de

Lecture 7: Multinomial Processing Tree Models

By Jan Göttmann

Lecture 7: Multinomial Processing Tree Models

  • 58