Vít Gabrhel
vit.gabrhel@mail.muni.cz
vit.gabrhel@cdv.cz
FSS MU,
14. 10. 2015
1. Historie
2. Teorie
3. Předpoklady použití
4. Diagnostika
5. Dummy coding
6. Vkládání prediktorů
7. Reportování výsledků
Regrese k průměru (Regression towards mediocrity)
Galton, 1886, s. 246
Lineární regrese
Nakolik lze z IQ skóru usuzovat o výkonu v matematice?
Vícenásobná lineární regrese
Přispívá k výši platu kromě úrovně vzdělání také pohlaví?
Predikce
Inkrementální validita
Statistická kontrola
Y = Y' + e
Lineární regrese
Y' = a + bX
Y' = b0 + b1X1
Vícenásobná lineární regrese
Y' = a + bnXn
Y' = b0 + b1X1 + b2X2 + ... + bnXn + e
Y = Predikovaná (= závislá; outcome) proměnná
Y' = Náš model
e = Chyba měření
a nebo b0 = průsečík (= intercept)
b nebo b1...n = směrnice (= slope)
X1...n = Prediktor (= nezávislá proměnná; predictor)
Y = Y' + e
Y' = a + bX
Y' = b0 + b1X1
dle Field, 2009, s. 199
Skupina pracovníků v podniku BD Technologies si stěžuje vedení firmy, že se roky, které odpracovali ve firmě (X) nepromítají do výše jejich mzdy (Y). Psycholog pracující v tomtéž podniku dostane za úkol zjistit, zda je stížnost pracovníků oprávněná.
Proměnné
N = 30
Roky:
Plat:
Průsečík a směrnice
Y' = a + bX
Y' = b0 + b1X1
a, resp. b0 = 11829
b, resp. b1 = 1709
sT2 = sM2 + sR2 (neboli ssT = ssres + ssreg)
R2 = ssM2 / ssT2
Přímka (model) je proložena daty tak, aby jim co nejlépe odpovídala.
Metoda odhadu nejmenších čtverců (Least Squares Estimation)
Suma (druhých mocnin) vzdáleností modelu od dat je nejmenší možná
SSM = Rozdíl mezi nulovým modelem (průměr Y) a námi stanoveným modelem (přímkou)
SSR = Rozdíl mezi daty a námi stanoveným modelem (přímkou)
SST = Rozdíl mezi daty a nulovým modelem (průměr Y)
R2 = Podíl rozptylu závislé (outcome) proměnné vysvětlené modelem (= koeficient determinance)
dle Field, 2009, s. 203
bi
Vyjadřuje nárůst Y’ při nárůstu Xi o jednu jednotku v jednotkách Y, při kontrole všech ostatních prediktorů (tj. semiparciální korelace); jedinečný přínos
βi ; Beta
Vyjadřuje nárůst Y’ při nárůstu Xi o 1; jsou-li Xi i Y standardizovány, při kontrole všech ostatních prediktorů (tj. semiparciální korelace), jedinečný přínos
b0
Po vycentrování (odečtení průměru od všech hodnot X1) odpovídá průměru Y.
Y' = b0 + b1X1
Prediktory
Model
Proměnné
1. Povaha proměnných - spojité, kvantitativní a kardinální nebo dummy (jen v případě prediktorů).
2. Nenulová variabilita prediktorů (tj. nejde o konstantu).
Prediktory
3. Absence (dokonalé) multikolinearity - prediktory by spolu neměly vysoce korelovat.
4. Prediktory nekorelují s vnějšími proměnnými - absence třetí (intervenující, vnější) proměnné.
"To draw conclusions about a population based on a regression analysis done on a sample, several assumptions must be true." (Field, 2009 , s. 220)
Rezidua
5. Homoskedascita - rozptyl reziduí by měl být konstantní napříč různými úrovněmi prediktoru
6. Nezávislost reziduí - Reziduální hodnoty kterýchkoliv dvou případů by spolu neměly souviset.
7. Normálně rozložená rezidua - jejich rozložení by mělo být náhodné
Outcome
8. Nezávislost kterýchkoliv dvou hodnot závislé proměnné (každá hodnota v rámci ní pochází z unikátního zdroje)
9. Linearita - přímka jako vhodný model popisu dat.
dle Field, 2009, s. 248
Nemají některé případy příliš velký vliv na výsledky regrese?
Dummy proměnné - kategorické proměnné upravené tak, aby mohly vstoupit do (vícenásobné) lineární regrese
Postup (dle Field, 2009, s. 254)
Indikátorové kódování (Indicator coding)
Efektové kódování (Effect coding)
Vysokoškolské | Středoškolské | Vysokoškolské | Středoškolské | ||
---|---|---|---|---|---|
Vysokoškolské | 1 | 1 | 0 | 1 | 0 |
Středoškolské | 2 | 0 | 1 | 0 | 1 |
Základní | 3 | 0 | 0 | -1 | -1 |
Úroveň vzdělání | Původní hodnota | Indikátorové kódování | Efektové kódování |
---|
Y = b0 +bA1XA1 + bA2XA2 + … + bmXm + e
Interpretace - Model:
Interpretace - Prediktory
Y = b0 +b1Plat + b2SŠ + b3VŠ + e
ENTER (Forced entry)
Vloží všechny prediktory najednou
BLOCKWISE
Vkládání sady prediktorů po blocích
STEPWISE
FORWARD
Vybere prediktory, které nejlépe odpovídají datům - až po stanovenou mez
BACKWARD
Vyřadí prediktory nejhůře odpovídající datům - až po stanovenou mez
Obvyklé řazení bloků
Obvyklý postup
1. Popisné statistiky
2. Předpoklady použití
3. Model
4. Prediktory
Zdroje
American Psychological Association. (2001). Publication manual of the American Psychological Association (6th ed.). Washington, DC: APA.
Field, A. (2009). Discovering statistics using SPSS, 3th Ed. Los Angeles: Sage.
Fox, J. (2016). Applied Regression Analysis and Generalized Linear Models, 3th Ed. Los Angeles: Sage.
Galton, F. (1886). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute, 15, pp. 246-63. Dostupné online z "http://galton.org/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf"
Robotková, A., & Ježek, S. (2012). Vícenásobná lineární regrese. Prezentace ke kurzu PSY252.
Na zvolených datech proveďte vícenásobnou lineární regresi.
Požadavky:
Bonus: