Seminar kognitive Modellierung:
Maximum Likelihood & Beyond

Jan Göttmann, M.Sc.

Fahrplan

Datum Thema
25.10.2023 Organisation und Ablauf
08.11.2023 Einführung: Grundlagen der Modellierung
15.11.2023 Einführung II: Grundlagen der Modellierung
22.11.2023 Parameterschätzung I: Diskrepanzfunktionen & Schätzalgorithmen
29.11.2023 Parameterschätzung II: Maximum Likelihood & Beyond
06.12.2023 Parameterschätzung III: Hands On in R Parameter Estimation
13.12.2023 Multinomial Processing Tree Models  (Theorie)​
20.12.2023 Anwendung von MPT Modellen (R-Sitzung)​
10.01.2024 Drift Diffusion Models (Theorie)
17.01.2024 Drift Diffusion Models (Anwendung)
24.01.2023 Mixture Models (Theorie)
31.01.2024 Mixture Models (Anwendung)
07.02.2024 Puffersitzung

Parameterschätzung I: Recap

  1. In der Parameterschätzung wird iterativ eine Diskrepanzfunktion minimiert, sodass die Abweichung zwischen Daten und Vorhersagen des Modells möglichst klein wird.

  2. Es gibt viele unterschiedliche Diskrepanzfunktionen (RMSE, MLE, ...)

  3. Die Wahl der Diskrepanzfunktion ist unabhängig von der Schätzmethode ! Ein häufig verwendetes Verfahren zur Parameterschätzung ist SIMPLEX !

  4. Der Raum aller möglichen Parameter ist der Parameter Space. Nimmt man den Wert der gewählten Diskrepanzfunktion hinzu, so erhält man den Error-Space.

Maximum Likelihood Estimation

Likelihood vs. Wahrscheinlichkeit

f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
  • Eine Wahrscheinlichkeitsfunktion beschreibt, wie wahrscheinlich die Daten, gegeben bestimmte Parameter des Modells sind.

Wie hoch ist die Wahrscheinlichkeit, einen IQ zwischen 120 und 140 zu haben ?

Maximum Likelihood Estimation

Likelihood vs. Wahrscheinlichkeit

\mathcal{L}(\mu, \sigma^2 | x_n) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
  • Die Likelihood-Funktion beschreibt die Plausibilität der Parameter eines statistischen Modells, indem sie die Wahrscheinlichkeit der beobachteten Daten unter verschiedenen Parametern des Modells bewertet.

Daten stehen fest, Parameterwerte variieren !

Maximum Likelihood Estimation

\hat{\theta}_{\text{MLE}} = \arg\max_{\theta} \prod_{i=1}^{n} f(x_i;\theta)
  • Der Maximum-Likelihood-Schätzer (MLE) maximiert die Wahrscheinlichkeit, dass die beobachteten Daten unter Annahme eines bestimmten Modells auftreten.

Maximum Likelihood Estimation (MLE)

Maximum Likelihood Estimation

\hat{\mu}_{\text{MLE}} = \arg\max_{\mu} \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}
  • In jeder Iteration des Schätzalgorhithmus (z.B. SIMPLEX), wird die Plausbilität der
    Parameterwerte evaluiert, indem für jeden Datenpunkt die Wahrscheinlichkeit unter den Parametern berechnet wird.

Maximum Likelihood Estimation (MLE)

Maximum Likelihood Estimation

  • Anschließend wird das Produkt aller Wahrscheinlichkeiten gebildet, um die Gesamtwahrscheinlichkeit der Daten
    gegeben den Parametern (=Likelihood) zu berechnen. 
\hat{\mu}_{\text{MLE}} = \arg\max_{\mu} \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}

Passiert in jeder Iteration der Schätzung für alle Parameter-Proposal !

Maximum Likelihood Estimation (MLE)

Maximum Likelihood Estimation

  • Problem: Da durch die Produktbildung sehr kleine Werte bei der Schätzung entstehen, kommt es bei der Berechnung häufig zu numerischen Fehlern
     
  • Daher wird die überwiegend die log-Likelihood (LL) berechnet. Durch den Logarithmus kann anstatt dem Produkt, die Summe gebildet werden, um die Gesamtwahrscheinlichkeit zu berechnen!

Maximum Likelihood Estimation (MLE)

\log \mathcal{L}(\theta) = \sum_{i=1}^{n} \log f(x_i; \theta)

Maximum Likelihood Estimation

  • Auch die log-Likelihoodfunktion hat ihren Peak, wenn p(Data|θ) am größten ist! Die meisten Algorithmen minimieren jedoch die Diskrepanzfunktion !
     
  • Lösung: Tranformation der Likelihood in die Abweichung von Model und Daten: 

Maximum Likelihood Estimation (MLE)

\text{Deviance} = -2 \log \mathcal{L}(\theta)

Maximum Likelihood Estimation

 

  • Konsistenz: Mit steigendem Stichprobenumfang konvergieren die Schätzer mit den wahren Populationsparametern
     
  • Erwartungstreue: Der Mittelwert über viele Schätzungen ist gleich dem Populationsparameter
     
  • Effizienz: Die Schätzer zeigen eine minimale Fehlervarianz

 

MLE sind probabilistische Diskrepanzfunktionen!  

Haben im Gegensatz zu RMSE etc. erwünschte statistische Eigenschaften:

Maximum Likelihood Estimation

 

  • Viele Kennwerte, die zur Beruteilung des Modelfit verwendet werden, sind \(\chi^2\)-Verteilt
     
  • Diese können dann mit einem NHST miteinander verglichen werden
     
  • Wird häufig auch als Maß der Abweichung zwischen Daten und Vorhersagen genutzt (z.B. Strukturgleichungsmodellierung)

 

 

 

Modelfit & MLE

Bei (MLE)-Schätzungen können aufgrund der Likelihood unterschiedliche Kennwerte berechnet werden, um Modelle zu vergleichen

Maximum Likelihood Estimation

 

  • Sehr sensitiv für die Stichprobegröße - Höhere Power bei größerer Stichprobe !
     
  • Kein Maß für den Fit, sondern quantifiziert nur Ablehnung der Nullhypothese !
     
  • Kann nur für genestete Modelle verwendet werden (z.B. einfacheres vs. komplexes Modell)
     
  • Normalverteilungsannahme !

 

 

 

Modelfit & MLE

Hautprobleme des Chi-Quadrat Tests:

Maximum Likelihood Estimation

Modelfit & MLE: Likelihood -Ratio Test

  • Der Likelihood-Ratio-Test wird dazu genutzt, Modelle mit einander zu vergleichen (relativer Modelfit)
     
  • Es wird das Verhältnis der Likelihood zweier Modelle berechnet.
     
  • Das Ergebnis ist dann annähernd \(\chi^2\)-Verteilt, es kann ein Signifikanztest durchgeführt werden !
D
df
L_0

Likelihood-Ratio

Likelihood einfaches Modell

L_1

Likelihood komplexeres Modell

D = -2 \log \left(\frac{L_0}{L_1}\right)
k_1 - k_0
D \sim \chi^2_{k_1 - k_0}

Ist der Test signifikant, ist der Fit des komplexeren Modells besser

Maximum Likelihood Estimation

Modelfit & MLE: Informationskriterien

Die weitaus am häufigsten angewandten Fit-Indeces sind das Akaike Informationskriterium (AIC) und das Bayesian Information Criterium (BIC).



 

LL
k
N

Log-Likelihood

Stichprobengröße

AIC = -2 \cdot LL + 2 \cdot k
BIC = -2 \cdot LL + k \cdot log(N)

Anzahl der Modellparameter

  • Genau wie der Likelihood-Ratio Test, werden hier Modelle miteinander verglichen
     
  • Beide Indices bestrafen komplexere Modelle durch die Anzahl der Parameter (k)
     
  • Der BIC zieht weiterhin in Betracht, dass die Stichprobengröße den Fit künstlich erhöht und bestraft dies mit einem zusätzlichen Strafterm für die Stichprobengröße

  •  

Thank you for Your Attention!

github.com/jgman86

jan.goettmann@uni-mainz.de

Lecture 4: Parameter Estimation II

By Jan Göttmann

Lecture 4: Parameter Estimation II

  • 211