Suma de cuadrados
¿Qué es la suma de cuadrados?
La suma de cuadrados es una técnica estadística utilizada en el análisis de regresión para determinar la dispersión de puntos de datos. En un análisis de regresión, el objetivo es determinar qué tan bien se puede ajustar una serie de datos a una función que podría ayudar a explicar cómo se generó la serie de datos. La suma de cuadrados se utiliza como una forma matemática de encontrar la función que mejor se ajusta (varía menos) de los datos.
La fórmula para la suma de cuadrados es
La suma de cuadrados también se conoce como variación.
¿Qué te dice la suma de cuadrados?
La suma de cuadrados es una medida de desviación de la media. En estadística, la media es el promedio de un conjunto de números y es la medida de tendencia central más utilizada. La media aritmética se calcula simplemente sumando los valores en el conjunto de datos y dividiendo por el número de valores.
Digamos que los precios de cierre de Microsoft (MSFT) en los últimos cinco días fueron 74,01, 74,77, 73,94, 73,61 y 73,40 en dólares estadounidenses. La suma de los precios totales es $ 369.73 y el precio medio o promedio del libro de texto sería $ 369.73 / 5 = $ 73.95.
Pero conocer la media de un conjunto de medidas no siempre es suficiente. A veces, es útil saber cuánta variación hay en un conjunto de medidas. La distancia entre los valores individuales y la media puede dar una idea de cómo se ajustan las observaciones o los valores al modelo de regresión que se crea.
Por ejemplo, si un analista quisiera saber si el precio de las acciones de MSFT se mueve en conjunto con el precio de Apple (AAPL), puede enumerar el conjunto de observaciones para el proceso de ambas acciones durante un período determinado, digamos 1, 2., o 10 años y crear un modelo lineal con cada una de las observaciones o mediciones registradas. Si la relación entre ambas variables (es decir, el precio de AAPL y el precio de MSFT) no es una línea recta, entonces hay variaciones en el conjunto de datos que deben analizarse.
Hablando de estadística, si la línea en el modelo lineal creado no pasa por todas las medidas de valor, entonces parte de la variabilidad que se ha observado en los precios de las acciones no tiene explicación. La suma de cuadrados se utiliza para calcular si existe una relación lineal entre dos variables, y cualquier variabilidad inexplicable se denomina suma de cuadrados residual.
La suma de cuadrados es la suma del cuadrado de variación, donde la variación se define como el margen entre cada valor individual y la media. Para determinar la suma de cuadrados, la distancia entre cada punto de datos y la línea de mejor ajuste se eleva al cuadrado y luego se suma. La línea de mejor ajuste minimizará este valor.
Cómo calcular la suma de cuadrados
Ahora puede ver por qué la medida se llama suma de desviaciones cuadradas, o suma de cuadrados para abreviar. Usando nuestro ejemplo de MSFT anterior, la suma de cuadrados se puede calcular como:
- SS = (74,01 – 73,95) 2 + (74,77 – 73,95) 2 + (73,94 – 73,95) 2 + (73,61 – 73,95) 2 + (73,40 – 73,95) 2
- SS = (0.06) 2 + (0.82) 2 + (-0.01) 2 + (-0.34) 2 + (-0.55) 2
- SS = 1.0942
Sumar la suma de las desviaciones sin elevar al cuadrado dará como resultado un número igual o cercano a cero, ya que las desviaciones negativas compensarán casi perfectamente las desviaciones positivas. Para obtener un número más realista, la suma de las desviaciones debe elevarse al cuadrado. La suma de cuadrados siempre será un número positivo porque el cuadrado de cualquier número, ya sea positivo o negativo, siempre es positivo.
Ejemplo de cómo utilizar la suma de cuadrados
Según los resultados del cálculo de MSFT, una suma alta de cuadrados indica que la mayoría de los valores están más lejos de la media y, por lo tanto, existe una gran variabilidad en los datos. Una suma baja de cuadrados se refiere a una baja variabilidad en el conjunto de observaciones.
En el ejemplo anterior, 1.0942 muestra que la variabilidad en el precio de las acciones de MSFT en los últimos cinco días es muy baja y los inversores que buscan invertir en acciones caracterizadas por la estabilidad de precios y baja volatilidad pueden optar por MSFT.
Conclusiones clave
- La suma de cuadrados mide la desviación de los puntos de datos del valor medio.
- Un resultado de suma de cuadrados más alto indica un alto grado de variabilidad dentro del conjunto de datos, mientras que un resultado más bajo indica que los datos no varían considerablemente del valor medio.
Limitaciones de usar la suma de cuadrados
Tomar una decisión de inversión sobre qué acciones comprar requiere muchas más observaciones que las que se enumeran aquí. Un analista puede tener que trabajar con años de datos para saber con mayor certeza qué tan alta o baja es la variabilidad de un activo. A medida que se agregan más puntos de datos al conjunto, la suma de los cuadrados aumenta a medida que los valores se dispersan más.
Las medidas de variación más utilizadas son la desviación estándar y la varianza. Sin embargo, para calcular cualquiera de las dos métricas, primero se debe calcular la suma de cuadrados. La varianza es el promedio de la suma de cuadrados (es decir, la suma de cuadrados dividida por el número de observaciones). La desviación estándar es la raíz cuadrada de la varianza.
Hay dos métodos de análisis de regresión que utilizan la suma de cuadrados: el método de mínimos cuadrados lineales y el método de mínimos cuadrados no lineales. El método de mínimos cuadrados se refiere al hecho de que la función de regresión minimiza la suma de los cuadrados de la varianza de los puntos de datos reales. De esta manera, es posible dibujar una función que proporcione estadísticamente el mejor ajuste para los datos. Tenga en cuenta que una función de regresión puede ser lineal (una línea recta) o no lineal (una línea curva).