La tabla de distribución normal
¿Qué es la distribución normal?
La fórmula de distribución normal se basa en dos parámetros simples, la media y la desviación estándar, que cuantifican las características de un conjunto de datos determinado. Mientras que la media indica el valor «central» o promedio de todo el conjunto de datos, la desviación estándar indica la «extensión» o variación de los puntos de datos alrededor de ese valor medio.
Ejemplo
Considere los siguientes 2 conjuntos de datos:
- Conjunto de datos 1 = {10, 10, 10, 10, 10, 10, 10, 10, 10, 10}
- Conjunto de datos 2 = {6, 8, 10, 12, 14, 14, 12, 10, 8, 6}
Para Dataset1, media = 10 y desviación estándar (stddev) = 0
Para Dataset2, media = 10 y desviación estándar (stddev) = 2.83
Tracemos estos valores para DataSet1:
De manera similar para DataSet2:
La línea horizontal roja en los dos gráficos anteriores indica el valor «medio» o promedio de cada conjunto de datos (10 en ambos casos). Las flechas rosadas en el segundo gráfico indican la extensión o variación de los valores de los datos con respecto al valor medio. Esto está representado por un valor de desviación estándar de 2,83 en el caso de DataSet2. Dado que DataSet1 tiene todos los valores iguales (como 10 cada uno) y sin variaciones, el valor de stddev es cero y, por lo tanto, no se pueden aplicar flechas rosadas.
El valor stddev tiene algunas características importantes y útiles que son extremadamente útiles en el análisis de datos. Para una distribución normal, los valores de los datos se distribuyen simétricamente a ambos lados de la media. Para cualquier conjunto de datos distribuido normalmente, trazar el gráfico con stddev en el eje horizontal y no. de valores de datos en el eje vertical, se obtiene el siguiente gráfico.
Propiedades de una distribución normal
- La curva normal es simétrica con respecto a la media;
- La media está en el medio y divide el área en dos mitades;
- El área total bajo la curva es igual a 1 para mean = 0 y stdev = 1;
- La distribución se describe completamente por su media y stddev
Como puede verse en el gráfico anterior, stddev representa lo siguiente:
- 68,3% de los valores de los datos están dentro de 1 desviación estándar de la media (-1 a +1)
- 95,4% de los valores de los datos están dentro de 2 desviaciones estándar de la media (-2 a +2)
- 99,7% de los valores de los datos están dentro de 3 desviaciones estándar de la media (-3 a +3)
El área bajo la curva en forma de campana, cuando se mide, indica la probabilidad deseada de un rango dado:
- menor que X: por ejemplo, probabilidad de que los valores de los datos sean inferiores a 70
- mayor que X: por ejemplo, probabilidad de que los valores de los datos sean superiores a 95
- entre X 1 y X 2 – por ejemplo, probabilidad de valores de datos entre 65 y 85
donde X es un valor de interés (ejemplos a continuación).
Trazar y calcular el área no siempre es conveniente, ya que diferentes conjuntos de datos tendrán diferentes valores de media y desviación estándar. Para facilitar un método estándar uniforme para cálculos fáciles y aplicabilidad a problemas del mundo real, se introdujo la conversión estándar a valores Z, que forman parte de la Tabla de distribución normal.
Z = (X – mean) / stddev, donde X es la variable aleatoria.
Básicamente, esta conversión obliga a estandarizar la media y stddev a 0 y 1 respectivamente, lo que permite utilizar un conjunto estándar definido de valores Z (de la Tabla de distribución normal ) para realizar cálculos sencillos. Una instantánea de la tabla de valores z estándar que contiene valores de probabilidad es la siguiente:
Para encontrar la probabilidad relacionada con el valor z de 0,239865, primero redondee a 2 lugares decimales (es decir, 0,24). Luego, verifique los 2 primeros dígitos significativos (0.2) en las filas y el dígito menos significativo (0.04 restante) en la columna. Eso conducirá a un valor de 0.09483.
La tabla de distribución normal completa, con precisión de hasta 5 puntos decimales para los valores de probabilidad (incluidos los de los valores negativos), se puede encontrar aquí.
Veamos algunos ejemplos de la vida real. La altura de los individuos de un grupo grande sigue un patrón de distribución normal. Suponga que tenemos un conjunto de 100 individuos cuyas alturas se registran y que la media y la desviación estándar se calculan en 66 y 6 pulgadas respectivamente.
Aquí hay algunas preguntas de muestra que se pueden responder fácilmente usando la tabla de valores z:
- ¿Cuál es la probabilidad de que una persona del grupo mida 70 pulgadas o menos?
La pregunta es encontrar el valor acumulativo de P (X <= 70), es decir, en todo el conjunto de datos de 100, cuántos valores estarán entre 0 y 70.
Primero convierta el valor X de 70 al valor Z equivalente.
Z = (X – media) / stddev = (70-66) / 6 = 4/6 = 0.66667 = 0.67 (redondeado a 2 lugares decimales)
Ahora necesitamos encontrar P (Z <= 0.67) = 0. 24857 (de la tabla z anterior)
es decir, hay un 24,857% de probabilidad de que un individuo del grupo sea menor o igual a 70 pulgadas.
Pero espera, lo anterior está incompleto. Recuerde, buscamos la probabilidad de todas las alturas posibles hasta 70, es decir, de 0 a 70. Lo anterior solo le da la porción desde la media hasta el valor deseado (es decir, 66 a 70). Necesitamos incluir la otra mitad, de 0 a 66, para llegar a la respuesta correcta.
Dado que 0 a 66 representa la mitad de la porción (es decir, una media del extremo al medio), su probabilidad es simplemente 0,5.
Por lo tanto, la probabilidad correcta de que una persona mida 70 pulgadas o menos = 0.24857 + 0.5 = 0. 74857 = 74.857%
Gráficamente (calculando el área), estas son las dos regiones sumadas que representan la solución:
- ¿Cuál es la probabilidad de que una persona mida 75 pulgadas o más?
es decir, encuentre P acumulativo complementario (X> = 75).
Z = (X – media) / stddev = (75-66) / 6 = 9/6 = 1,5
P (Z> = 1.5) = 1- P (Z <= 1.5) = 1 – (0.5 + 0.43319) = 0.06681 = 6.681%
- ¿Cuál es la probabilidad de que una persona mida entre 52 y 67 pulgadas?
Encuentre P (52 <= X <= 67).
P (52 <= X <= 67) = P [(52-66) / 6 <= Z <= (67-66) / 6] = P (-2,33 <= Z <= 0,17)
= P (Z <= 0.17) –P (Z <= -0.233) = (0.5 + 0.56749) – (.40905) =
Esta tabla de distribución normal (y valores z) comúnmente se usa para cualquier cálculo de probabilidad sobre movimientos de precios esperados en el mercado de valores para acciones e índices. Se utilizan en el comercio basado en rangos, identificando tendencias alcistas o bajistas, niveles de indicadores técnicos basados en conceptos de distribución normal de desviación media y estándar.