Thierry FEUILLET
Univ. Caen
Les résultats statistiques issus d’un échantillon ne valent pas forcément pour la population (inférence)
Dépend en grande partie de la taille et de la représentativité de l’échantillon
La variance est le paramètre le plus utilisé en stat
C'est une mesure de la variation des valeurs d'une variable autour de sa moyenne
L'écart-type est la racine carrée de la variance
Le coefficient de variation est l'écart-type divisée par la moyenne (annule les effets des unités de mesure variables)
La covariance mesure l'association entre deux variables quantitatives
Elle peut être négative, nulle ou positive
Le coefficient de corrélation linéaire est le rapport entre la covariance et le produit des écart-types de x et y
On considère que cette variable a pour moyenne β1 et pour variance une valeur qui dépend de la variance des résidus et de la variance de X
Plus cette variance est faible, plus l'estimation est précise et fiable
Il y a donc 3 manières de minimiser l'erreur type :
- Augmenter la variance de X
- Diminuer les résidus
- Augmenter la taille de l'échantillon
On cherche à savoir si l'effet réel de X sur Y (i.e. β1) est significativement différent de 0
Cette hypothèse se note :
H0 : β1 = 0Rappel : on ne dispose que d'un estimateur de β1 (b1)
Dans notre exemple, b1 = 0,04
Doit-on en conclure que comme 0,04 ≠ 0, il y a bien un effet de X sur Y ?
Mais imaginez que la vraie valeur soit 0, et que la valeur de 0,04 ne soit due qu'à une erreur d'échantillonnage ?
t = (b1- 0)/s(b1)
soit
t = b1/s(b1)
C'est la t-value !
L'idée est que plus cette quantité est proche de 0, plus il y a de chances que l'effet de X sur Y soit nul
On connait la distribution théorique de t (théorème central limite), on peut donc estimer la probabiltié critique d'accepter H0 !
si t > |1,96| => on a 95% de chances de rejeter H0 sans se tromper (quand n > 200)
On pose l'hypothèse H0 : β1 = 0
On rapporte b1-0 à son erreur type => c'est la t-value. Ce rapport (t) suit une loi de Student à n-2 DDL
On choisit un seuil alpha (souvent 0,05)
On rejète H0 si |t| > tα
On estime avec 99% de chances de ne pas se tromper que la distance au littoral a bien un effet sur l'amplitude thermique
Plusieurs hypothèses doivent théoriquement être respectées pour s’assurer des estimations BLUE (best linear unbiased estimators)
La plupart de ces hypothèses concernent les résidus
Les résidus ont une distribution normale et une moyenne nulle
Ils ont une variance constante (homoscédasticité), i.e. sont indépendants de X
Ils sont indépendants entre eux
Par exemple, si les résidus sont hétéroscédastiques, cela indique un pb de spécification du modèle (variable manquante)
S’ils sont autocorrélés (notamment dans l’espace), la variance de b est sous-estimée (car information redondante, donc n plus petit qu’en réalité)
En régression linéaire, Y doit être distribuée selon une loi normale
Les relations entre Y et X sont linéaires
Souvent, une variable explicative ne suffit pas pour expliquer le phénomène étudié
Dans notre exemple, nous n'expliquions "que" 80% de la variance de Y environ
Il est possible d'intégrer d'autres variables explicatives dans le modèle
On parle alors de régression multiple
La régression multiple s'écrit :
où k est le nombre de variables explicatives
Les estimations, tests et analyses de résidus se généralisent facilement à la RM
Par contre, l'interprétation des coefficients se fait toutes choses égales par ailleurs, c'est-à-dire en contrôlant l'effet des autres variables
Une hypothèse de la RM stipule que les VE ne doivent pas être colinéaires
Cela biaise les estimations
On peut construire cette matrice et éliminer les coefficients > 0,7 en valeur absolue
Une autre méthode plus poussée consiste à calculer la VIF
Sélection pas à pas ascendante
Poser les hypothèses théoriques