Varianza y Desviación Estándar

La desviación simplemente significa qué tan lejos de lo normal

Desviación estándar

La Desviación Estándar mide cuánto se separan los datos.

Su símbolo es σ (la letra griega sigma en minúscula).

La fórmula es fácil: es la raíz cuadrada de la Varianza. Así que, "¿qué es la Varianza?"

Varianza

La Varianza se define así:

Es la media de las diferencias con la media elevadas al cuadrado.

Para calcular la Varianza sigue estos pasos:

Ejemplo

Tú y tus amigos han medido las alturas de sus perros (en milímetros):
altura de varios perros en una gráfica

Las alturas (hasta el lomo de cada perro) son: 600mm, 470mm, 170mm, 430mm y 300mm.

Calcula la media, la varianza y la desviación estándar.

Respuesta:

Media = 600 + 470 + 170 + 430 + 3005
  = 19705
  = 394

así que la altura media es 394 mm. Vamos a dibujar esto en el gráfico:
diferencia de altura de varios perros respecto a la media en una gráfica

Ahora calculamos la diferencia de cada altura con la media:

Para calcular la Varianza, toma cada diferencia, elévala al cuadrado, y calcula la media:

Varianza
σ2 = 2062 + 762 + (−224)2 + 362 + (−94)25
  = 42436 + 5776 + 50176 + 1296 + 88365
  = 1085205
  = 21704

Así que la varianza es 21,704.

Y la Desviación Estándar es la raíz de la Varianza, así que:

Desviación Estándar
σ = √21704
  = 147.32...
  = 147 (redondeado a mm)

Y lo bueno de la Desviación Estándar es que es útil: ahora podemos ver qué alturas están dentro de una Desviación Estándar (147mm) de la media:

Altura de varios perros en una gráfica. Su desviación estándar

Así que usando la Desviación Estándar tenemos una manera "estándar" de saber qué es normal, o extra grande o extra pequeño.

Los Rottweilers son perros grandes. Y los Dachsunds son un poco pequeños, ¿verdad?

Cómo se usa

distribución normal 1 sd = 68%

Podemos esperar que aproximadamente el 68% de los valores estén dentro de más-o-menos una desviación estándar.

Lee Distribución Estándar Normal para aprender más.

También prueba la Calculadora de Desviación Estándar.

Pero ... hay un pequeño cambio con los datos de la muestra

Nuestro ejemplo ha sido para una Población (los 5 perros son los únicos perros que nos interesan).

Pero si los datos son una Muestra (una selección tomada de una Población más grande), ¡entonces el cálculo cambia!

Cuando tiene valores de datos "N" que son:

  • La Población: divide entre N al calcular la Varianza (como lo hicimos)
  • Una Muestra: divide entre N-1 al calcular la Varianza

Todos los demás cálculos permanecen igual, incluida la forma en que calculamos la media.

Ejemplo: si nuestros 5 perros son solo una muestra de una población mayor de perros, dividimos entre 4 en lugar de 5 de esta manera:

Varianza de la muestra = 108,520 / 4 = 27,130
Desviación Estándar de la muestra = √27,130 = 165 (redondeado a mm)

Piensa en ello como una "corrección" cuando tus datos son solo una muestra.

Fórmulas

Aquí están las dos fórmulas. Si quieres saber más, están explicadas en Fórmulas de Desviación Estándar:


La "Desviación Estándar de la Población":

  raíz cuadrada de [(1 / N) veces Sigma i = 1 a N de (xi - mu) ^ 2]
La "Desviación Estándar de la Muestra":   raíz cuadrada de [(1 / (N-1)) veces Sigma i = 1 a N de (xi - xbar) ^ 2]

Parece complicado, pero el cambio importante es
dividir por N-1 (en lugar de N) al calcular una Desviación Estándar de un Muestra.

 

 

*Nota al pie: ¿Por qué elevar al cuadrado las diferencias?

Si solo sumamos las diferencias de la media ... los negativos cancelan los positivos:

desviación estándar   4 + 4 − 4 − 44 = 0

Entonces eso no funcionará. ¿Qué tal si usamos valor absoluto?

desviación estándar   |4| + |4| + |−4| + |−4|4 = 4 + 4 + 4 + 4 4 = 4

Eso se ve bien (y es la Desviación Media), pero observa este caso:

desviación estándar   |7| + |1| + |−6| + |−2|4 = 7 + 1 + 6 + 2 4 = 4

¡Oh no! También da un valor de 4, aunque las diferencias están más extendidas.

Entonces, intentemos elevar al cuadrado cada diferencia (y sacar la raíz cuadrada al final):

desviación estándar   √( 42 + 42 + 42 + 424) = √( 64 4 ) = 4
desviación estándar   √( 72 + 12 + 62 + 22 4) = √( 90 4 ) = 4.74...

¡Eso es bueno! La Desviación Estándar es mayor cuando las diferencias están más extendidas ... justo lo que queremos.

De hecho, este método es una idea similar a calcular la distancia entre dos puntos, solo que aplicado de una manera diferente.

Y es más fácil usar álgebra en cuadrados y raíces cuadradas que valores absolutos, lo que hace que la Desviación Estándar sea fácil de usar en otras áreas de las matemáticas.

Regresar arriba

¡Refuerza tu aprendizaje resolviendo los siguientes retos sobre este tema! (Nota: están en inglés).