Avanzado

Correlación

Cuando dos conjuntos de datos están fuertemente vinculados, decimos que tienen una correlación alta.

La palabra Correlación está formada de Co- (que significa "juntos") y Relación.

Se asume que una correlación es lineal (siguiendo una línea).
tipos de correlaciones

La correlación puede tener un valor de:

El valor muestra qué tan buena es la correlación (no qué tan inclinada está la línea) y si es positiva o negativa.

Ejemplo: venta de helados

Una heladería local realiza un seguimiento de la cantidad de helado que venden en comparación con la temperatura de ese día. Aquí están sus cifras de los últimos 12 días:

Venta de helados vs Temperatura
Temperatura °C Venta de Helados
14.2° $215
16.4° $325
11.9° $185
15.2° $332
18.5° $406
22.1° $522
19.4° $412
25.1° $614
23.4° $544
18.1° $421
22.6° $445
17.2° $408

Y aquí están los mismos datos mediante un Diagrama de Dispersión:

diagrama de dispersión, helados 1

Podemos ver fácilmente que el clima más cálido y los días con más ventas van de la mano. La relación es buena pero no perfecta.

De hecho, la correlación es 0.9575 ... más abajo te cuento cómo la calculé.

También puedes probar la Calculadora de Correlaciones.

La correlación no es buena con las curvas

El cálculo de correlación solo funciona correctamente para las relaciones de línea recta.

Nuestro ejemplo de helado: ¡ha habido una ola de calor!

Hace tanto calor que la gente no se acerca a la tienda y las ventas comienzan a caer.

Aquí está el último diagrama:

diagrama de dispersión, helados 2

El valor de correlación ahora es 0: "Sin correlación" ...!

El valor de correlación calculado es 0 (lo resolví), lo que significa "sin correlación".

Pero podemos ver que los datos siguen una bonita curva que alcanza un pico de alrededor de 25° C.

Pero el cálculo de la correlación no es lo suficientemente "inteligente" como para ver esto.

Moraleja de la historia: ¡Haz un Diagrama de Dispersión, y míralo!
Puedes ver una relación que el cálculo no ve.

"Correlación no implica causalidad"

Un dicho común es "La correlación no implica causalidad".

Lo que realmente significa es que una correlación no demuestra que una cosa cause la otra:
Puede haber muchas razones por las cuales los datos tienen una buena correlación.

Ejemplo: gafas de sol vs helado

Nuestra tienda de helados descubrió cuántas gafas de sol fueron vendidas por una gran tienda por día y las compara con sus ventas de helados:

diagrama de dispersión, helados 3

La correlación entre las gafas de sol y la venta de helados es alta

¿Esto significa que las gafas de sol hacen que la gente quiera helado?

Ejemplo: los suburbios pobres tienen más probabilidades de tener una alta contaminación.

¿Por qué?
  • ¿Los pobres generan una alta contaminación?
  • ¿Son los suburbios contaminados el único lugar donde la gente pobre puede pagar una casa?
  • ¿Hay un vínculo común, como fábricas con trabajos mal pagados y mucha contaminación?

Ejemplo: ¡un caso real!

libro y termómetro corporal

Hace unos años, una encuesta de empleados encontró una fuerte correlación positiva entre "Estudiar un curso externo" y Días de asueto por enfermedad.

Esto significa:
  • ¿Estudiar los enferma?
  • ¿Las personas enfermas estudian mucho?
  • ¿O mintieron acerca de estar enfermos para poder estudiar más?
Sin más investigación no podemos estar seguros de la verdadera razón.

Cómo se calcula

¿Cómo calculé el valor 0.9575 en la parte de arriba?

Usé "Correlación de Pearson". Existe un software que puede calcularlo, como la función CORREL () en Excel o LibreOffice Calc ...

... pero aquí te digo cómo puedes calcularlo tú mismo:

Llamemos a los dos conjuntos de datos "x" e "y" (en nuestro caso, la temperatura es x y las ventas de helados son y):

Así es como calculé el primer ejemplo de los helados (valores redondeados a 1 o 0 decimales):

operaciones para la correlación

La fórmula se ve así:

fórmula de correlación

Donde:

Probablemente no tendrás que calcularlo así, pero al menos sabes que no es "mágico", sino simplemente un conjunto de cálculos de rutina.

Nota para programadores

Puedes calcularlo de una sola vez a través de los datos. Solo suma x, y, x2, y2 y xy (no se necesitan los cálculos de a o b que hicimos arriba) y aplica esta fórmula:

fórmula para correlación

Otros métodos

Hay otras formas de calcular un coeficiente de correlación, como el "Coeficiente de Correlación por Rangos de Spearman".

 

¡Refuerza tu aprendizaje resolviendo los siguientes retos sobre este tema! (Nota: están en inglés).

 
Copyright © 2020 DisfrutaLasMatematicas.com
Math is Fun Website