Seminar kognitive Modellierung:
Maximum Likelihood & Beyond
Jan Göttmann, M.Sc.
Fahrplan
Datum | Thema |
---|---|
25.10.2023 | Organisation und Ablauf |
08.11.2023 | Einführung: Grundlagen der Modellierung |
15.11.2023 | Einführung II: Grundlagen der Modellierung |
22.11.2023 | Parameterschätzung I: Diskrepanzfunktionen & Schätzalgorithmen |
29.11.2023 | Parameterschätzung II: Maximum Likelihood & Beyond |
06.12.2023 | Parameterschätzung III: Hands On in R Parameter Estimation |
13.12.2023 | Multinomial Processing Tree Models (Theorie) |
20.12.2023 | Anwendung von MPT Modellen (R-Sitzung) |
10.01.2024 | Drift Diffusion Models (Theorie) |
17.01.2024 | Drift Diffusion Models (Anwendung) |
24.01.2023 | Mixture Models (Theorie) |
31.01.2024 | Mixture Models (Anwendung) |
07.02.2024 | Puffersitzung |
Parameterschätzung I: Recap
-
In der Parameterschätzung wird iterativ eine Diskrepanzfunktion minimiert, sodass die Abweichung zwischen Daten und Vorhersagen des Modells möglichst klein wird.
-
Es gibt viele unterschiedliche Diskrepanzfunktionen (RMSE, MLE, ...)
-
Die Wahl der Diskrepanzfunktion ist unabhängig von der Schätzmethode ! Ein häufig verwendetes Verfahren zur Parameterschätzung ist SIMPLEX !
-
Der Raum aller möglichen Parameter ist der Parameter Space. Nimmt man den Wert der gewählten Diskrepanzfunktion hinzu, so erhält man den Error-Space.
Maximum Likelihood Estimation
Likelihood vs. Wahrscheinlichkeit
- Eine Wahrscheinlichkeitsfunktion beschreibt, wie wahrscheinlich die Daten, gegeben bestimmte Parameter des Modells sind.
Wie hoch ist die Wahrscheinlichkeit, einen IQ zwischen 120 und 140 zu haben ?
Maximum Likelihood Estimation
Likelihood vs. Wahrscheinlichkeit
- Die Likelihood-Funktion beschreibt die Plausibilität der Parameter eines statistischen Modells, indem sie die Wahrscheinlichkeit der beobachteten Daten unter verschiedenen Parametern des Modells bewertet.
Daten stehen fest, Parameterwerte variieren !
Maximum Likelihood Estimation
- Der Maximum-Likelihood-Schätzer (MLE) maximiert die Wahrscheinlichkeit, dass die beobachteten Daten unter Annahme eines bestimmten Modells auftreten.
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
- In jeder Iteration des Schätzalgorhithmus (z.B. SIMPLEX), wird die Plausbilität der
Parameterwerte evaluiert, indem für jeden Datenpunkt die Wahrscheinlichkeit unter den Parametern berechnet wird.
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
- Anschließend wird das Produkt aller Wahrscheinlichkeiten gebildet, um die Gesamtwahrscheinlichkeit der Daten
gegeben den Parametern (=Likelihood) zu berechnen.
Passiert in jeder Iteration der Schätzung für alle Parameter-Proposal !
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
-
Problem: Da durch die Produktbildung sehr kleine Werte bei der Schätzung entstehen, kommt es bei der Berechnung häufig zu numerischen Fehlern
- Daher wird die überwiegend die log-Likelihood (LL) berechnet. Durch den Logarithmus kann anstatt dem Produkt, die Summe gebildet werden, um die Gesamtwahrscheinlichkeit zu berechnen!
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
-
Auch die log-Likelihoodfunktion hat ihren Peak, wenn p(Data|θ) am größten ist! Die meisten Algorithmen minimieren jedoch die Diskrepanzfunktion !
- Lösung: Tranformation der Likelihood in die Abweichung von Model und Daten:
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation
-
Konsistenz: Mit steigendem Stichprobenumfang konvergieren die Schätzer mit den wahren Populationsparametern
-
Erwartungstreue: Der Mittelwert über viele Schätzungen ist gleich dem Populationsparameter
- Effizienz: Die Schätzer zeigen eine minimale Fehlervarianz
MLE sind probabilistische Diskrepanzfunktionen!
Haben im Gegensatz zu RMSE etc. erwünschte statistische Eigenschaften:
Maximum Likelihood Estimation
- Viele Kennwerte, die zur Beruteilung des Modelfit verwendet werden, sind \(\chi^2\)-Verteilt
-
Diese können dann mit einem NHST miteinander verglichen werden
- Wird häufig auch als Maß der Abweichung zwischen Daten und Vorhersagen genutzt (z.B. Strukturgleichungsmodellierung)
Modelfit & MLE
Bei (MLE)-Schätzungen können aufgrund der Likelihood unterschiedliche Kennwerte berechnet werden, um Modelle zu vergleichen
Maximum Likelihood Estimation
-
Sehr sensitiv für die Stichprobegröße - Höhere Power bei größerer Stichprobe !
- Kein Maß für den Fit, sondern quantifiziert nur Ablehnung der Nullhypothese !
- Kann nur für genestete Modelle verwendet werden (z.B. einfacheres vs. komplexes Modell)
- Normalverteilungsannahme !
Modelfit & MLE
Hautprobleme des Chi-Quadrat Tests:
Maximum Likelihood Estimation
Modelfit & MLE: Likelihood -Ratio Test
-
Der Likelihood-Ratio-Test wird dazu genutzt, Modelle mit einander zu vergleichen (relativer Modelfit)
-
Es wird das Verhältnis der Likelihood zweier Modelle berechnet.
- Das Ergebnis ist dann annähernd \(\chi^2\)-Verteilt, es kann ein Signifikanztest durchgeführt werden !
Likelihood-Ratio
Likelihood einfaches Modell
Likelihood komplexeres Modell
Ist der Test signifikant, ist der Fit des komplexeren Modells besser
Maximum Likelihood Estimation
Modelfit & MLE: Informationskriterien
Die weitaus am häufigsten angewandten Fit-Indeces sind das Akaike Informationskriterium (AIC) und das Bayesian Information Criterium (BIC).
Log-Likelihood
Stichprobengröße
Anzahl der Modellparameter
-
Genau wie der Likelihood-Ratio Test, werden hier Modelle miteinander verglichen
-
Beide Indices bestrafen komplexere Modelle durch die Anzahl der Parameter (k)
- Der BIC zieht weiterhin in Betracht, dass die Stichprobengröße den Fit künstlich erhöht und bestraft dies mit einem zusätzlichen Strafterm für die Stichprobengröße
Thank you for Your Attention!
github.com/jgman86
jan.goettmann@uni-mainz.de
Lecture 4: Parameter Estimation II
By Jan Göttmann
Lecture 4: Parameter Estimation II
- 211