Seminar kognitive Modellierung:
Multinomial Processing Tree Models
Jan Göttmann, M.Sc.
Einführung
- …bieten Erklärungen für beobachtete Häufigkeiten in Form von Parametern die eine klare psychologisch Interpretation haben
- …diese Parameter repräsentieren Wahrscheinlichkeiten von latenten psychologischen Prozessen (bzw. Zuständen) die menschlichem Verhalten zu Grunde liegen
- …trennen und messen den Beitrag dieser verschiedenen psychologischen Prozesse zu beobachteten Häufigkeiten !
MPT-Modelle…
Einführung
Terminlogie & Annahmen
Multinomial…
- MPT Modelle beschreiben Daten, die einer oder mehreren Multinomialverteilung folgen
- Multinomialverteilungen beschreiben kategoriale / diskrete Daten ( ja / nein Antworten, Multiple Choice Aufgaben, korrekte/inkorrekte Entscheidungen)
Processing…
- Annahme: Eine finite Anzahl von latenten Prozessen die Beobachteten Antworten erzeugt
- Ziel: Diese Prozesse durch die geschätzten Parameter zu beschreiben
Tree…
- Modelle werden als Wahrscheinlichkeitsbäume
dargestellt
Einführung
Wahrscheinlichkeiten für bestimmte Kategorien, lassen sich anhand des Pfaddiagrammes berechnen.
- Innerhalb eines Pfades werden Wahrscheinlichkeiten Multipliziert (bedingte Wahrscheinlichkeiten)
- Unterschiedliche Pfade, die zum gleichen Ergebnis führen, können addiert werden.
Kategorie A
A
B
Kategorie B
Kategorie A
Kategorie A
Addition
Multiplikation
Prinzip
Einführung
Gleichungen
Kategorie A
A
B
Kategorie B
Kategorie A
Kategorie A
Addition
Multiplikation
Beispiel MPT Modellierung: Recognition Memory
Paradigma Old vs. New Recognition Memory Test
1. Lernphase
Versuchspersonen müssen zunächst eine Liste von unterschiedlichen Worten lernen („old items“)
2. Test Phase
Nun werden Worte in zwei unterschiedlichen Bedingungen präsentiert
- Alte Worte (bereits gelernt)
- Neue Worte ( „Lures“)
- Abhängige Variable ist die Entscheidung zwischen „Alt“ und „Neu“ (dichotom)
Beispiel MPT Modellierung: Recognition Memory
old_correct | old_incorrect | new_correct | new_incorrect |
---|---|---|---|
71 | 29 | 17 | 30 |
84 | 25 | 36 | 18 |
62 | 34 | 20 | 35 |
... | ... | ... | ... |
... | ... | ... | ... |
Daten: Auszählen der Antworten für jede Kategorie
Paradigma Old vs. New Recognition Memory Test
Beispiel MPT Modellierung: Recognition Memory
1-High Threshold Model (Swets, 1963)
Old Word
recognition
"old"
"new"
"old"
no recognition
guess "old"
guess "new"
"new"
"old"
guess "old"
guess "new"
New Word
Model Equations
Beispiel MPT Modellierung: Recognition Memory
Einfaches Multinomiales Modell
- Daten: Beobachtete Häufigkeiten \(n= (n_1,n_2,...n_J)\)
- Parameter: Vektor von Kategoriewahrscheinlichkeiten \(p = (p_1,p_2,...p_j)\)
- Kategoriewahrscheinlichkeiten werden als Funktion der latenten Parameter des Multinomialen Models \(f(\theta)\) ausgedrückt
- \(p_1 = f_1(\theta_1,\theta_2,...,\theta_S)\)
- \(p_2 = f_2(\theta_1,\theta_2,...,\theta_S)\)
- Parameterspace von S latenten Parametern \(\theta_S\) ist \(\Omega \)
Maximum Likelihood Estimation
Likelihood vs. Wahrscheinlichkeit
- Eine Wahrscheinlichkeitsfunktion beschreibt, wie wahrscheinlich die Daten, gegeben bestimmte Parameter des Modells sind.
Wie hoch ist die Wahrscheinlichkeit, einen IQ zwischen 120 und 140 zu haben ?
Maximum Likelihood Estimation
Likelihood vs. Wahrscheinlichkeit
- Die Likelihood-Funktion beschreibt die Plausibilität der Parameter eines statistischen Modells, indem sie die Wahrscheinlichkeit der beobachteten Daten unter verschiedenen Parametern des Modells bewertet.
Daten stehen fest, Parameterwerte variieren !
Maximum Likelihood Estimation
- Der Maximum-Likelihood-Schätzer (MLE) maximiert die Wahrscheinlichkeit, dass die beobachteten Daten unter Annahme eines bestimmten Modells auftreten.
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
- In jeder Iteration des Schätzalgorhithmus (z.B. SIMPLEX), wird die Plausbilität der
Parameterwerte evaluiert, indem für jeden Datenpunkt die Wahrscheinlichkeit unter den Parametern berechnet wird.
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
- Anschließend wird das Produkt aller Wahrscheinlichkeiten gebildet, um die Gesamtwahrscheinlichkeit der Daten
gegeben den Parametern (=Likelihood) zu berechnen.
Passiert in jeder Iteration der Schätzung für alle Parameter-Proposal !
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
-
Problem: Da durch die Produktbildung sehr kleine Werte bei der Schätzung entstehen, kommt es bei der Berechnung häufig zu numerischen Fehlern
- Daher wird die überwiegend die log-Likelihood (LL) berechnet. Durch den Logarithmus kann anstatt dem Produkt, die Summe gebildet werden, um die Gesamtwahrscheinlichkeit zu berechnen!
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
-
Auch die log-Likelihoodfunktion hat ihren Peak, wenn p(Data|θ) am größten ist! Die meisten Algorithmen minimieren jedoch die Diskrepanzfunktion !
- Lösung: Tranformation der Likelihood in die Abweichung von Model und Daten:
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
-
Konsistenz: Mit steigendem Stichprobenumfang konvergieren die Schätzer mit den wahren Populationsparametern
-
Erwartungstreue: Der Mittelwert über viele Schätzungen ist gleich dem Populationsparameter
- Effizienz: Die Schätzer zeigen eine minimale Fehlervarianz
MLE sind probabilistische Diskrepanzfunktionen!
Haben im Gegensatz zu RMSE etc. erwünschte statistische Eigenschaften:
Maximum Likelihood Estimation
- Viele Kennwerte, die zur Beruteilung des Modelfit verwendet werden, sind \(\chi^2\)-Verteilt
-
Diese können dann mit einem NHST miteinander verglichen werden
- Wird häufig auch als Maß der Abweichung zwischen Daten und Vorhersagen genutzt (z.B. Strukturgleichungsmodellierung)
Modelfit & MLE
Bei (MLE)-Schätzungen können aufgrund der Likelihood unterschiedliche Kennwerte berechnet werden, um Modelle zu vergleichen
Maximum Likelihood Estimation
-
Sehr sensitiv für die Stichprobegröße - Höhere Power bei größerer Stichprobe !
- Kein Maß für den Fit, sondern quantifiziert nur Ablehnung der Nullhypothese !
- Kann nur für genestete Modelle verwendet werden (z.B. einfacheres vs. komplexes Modell)
- Normalverteilungsannahme !
Modelfit & MLE
Hautprobleme des Chi-Quadrat Tests:
Maximum Likelihood Estimation
Modelfit & MLE: Likelihood -Ratio Test
-
Der Likelihood-Ratio-Test wird dazu genutzt, Modelle mit einander zu vergleichen (relativer Modelfit)
-
Es wird das Verhältnis der Likelihood zweier Modelle berechnet.
- Das Ergebnis ist dann annähernd \(\chi^2\)-Verteilt, es kann ein Signifikanztest durchgeführt werden !
Ist der Test signifikant, ist der Fit des komplexeren Modells besser
Likelihood-Ratio
Likelihood einfaches Modell
Likelihood komplexeres Modell
Maximum Likelihood Estimation
Modelfit & MLE: Informationskriterien
Die weitaus am häufigsten angewandten Fit-Indeces sind das Akaike Informationskriterium (AIC) und das Bayesian Information Criterium (BIC).
Log-Likelihood
Stichprobengröße
Anzahl der Modellparameter
-
Genau wie der Likelihood-Ratio Test, werden hier Modelle miteinander verglichen
-
Beide Indices bestrafen komplexere Modelle durch die Anzahl der Parameter (k)
- Der BIC zieht weiterhin in Betracht, dass die Stichprobengröße den Fit künstlich erhöht und bestraft dies mit einem zusätzlichen Strafterm für die Stichprobengröße
Thank you for Your Attention!
@JanGoettmann
github.com/jgman86
jan.goettmann@uni-mainz.de
Lecture 7: Multinomial Processing Tree Models
By Jan Göttmann
Lecture 7: Multinomial Processing Tree Models
- 56