Probabilidad y estadística

Estadística bivariada

Estadística bivariada

La estadística bivariada estudia la relación, asociación o dependencia entre dos variables (X, Y) en una muestra, buscando determinar si existe una correlación, la fuerza de dicha conexión, o si una causa cambios en la otra

 

Generalmente usamos dos medidas para estudiar esa relación:

  • Covarianza
  • Correlación

Covarianza

La covarianza se calcula con la siguiente fórmula:

\sigma_{xy} = cov(x,y) = \frac {1}{n-1} \sum_{i=1}^{n} (x_i - \bar x )(y_i - \bar y )

Su valor puede interpretarse como:

  • Mayor a 0: Hay una relación directa (positiva)
  • Menor a 0: Hay una relación inversa (negativa)
  • Igual a 0: No hay relación lineal

Correlación

La correlación se calcula con la siguiente fórmula:

r_{xy} = \frac {cov(x,y)}{\sigma_x \sigma_y}

Su valor queda normalizado en el rango [-1, 1]:

  • 1: Correlación positiva perfecta
  • -1: Correlación negativa perfecta
  • 0: No hay relación lineal

Regresión lineal

Regresión lineal

La regresión lineal es un modelo matemático que se usa para aproximar la relación de dependencia entre una variable dependiente (Y), una variable independiente (X) y algún término aleatorio

{\displaystyle Y=\beta _{0}+\beta _{1}X_{1}+\cdots +\beta _{m}X_{m}+\varepsilon }

Regresión lineal

La regresión lineal es un modelo matemático que se usa para aproximar la relación de dependencia entre una variable dependiente (Y), una variable independiente (X) y algún término aleatorio

{\displaystyle y={\bar {y}}+{\frac {\sigma _{xy}}{\sigma _{x}^{2}}}(x-{\bar {x}})}

Esta fórmula se usa cuando X causa o predice a Y, minimizando los errores verticales

Regresión lineal

{\displaystyle x={\bar {x}}+{\frac {\sigma _{xy}}{\sigma _{y}^{2}}}(y-{\bar {y}})}

Esta fórmula se usa cuando queremos predecir X conociendo Y, minimizando los errores horizontales

Análisis de residuos

Una forma fácil de verificar un modelo de regresión usado es adecuado es mediante el análisis de los residuos:

  • La media de los residuos debe tender hacia cero
  • Una gráfica de dispersión entre los residuos (en el eje vertical) contra la variable independiente (en el eje horizontal)
  • Una gráfica de dispersión entre los valores proyectados (en el eje vertical) contra los valores reales (en el eje horizontal)

Probabilidad y estadística: Estadística bivariada

By Gilberto 🦁

Probabilidad y estadística: Estadística bivariada

Estadística bivariada

  • 77