Factor de inflación de la varianza (VIF)
¿Qué es un factor de inflación de varianza (VIF)?
El factor de inflación de la varianza (VIF) es una medida de la cantidad de multicolinealidad en un conjunto de múltiples variables de regresión. Matemáticamente, el VIF para una variable de modelo de regresión es igual a la razón entre la varianza general del modelo y la varianza de un modelo que incluye solo esa única variable independiente. Esta razón se calcula para cada variable independiente. Un VIF alto indica que la variable independiente asociada es altamente colineal con las otras variables del modelo.
Conclusiones clave
- Un factor de inflación de la varianza (VIF) proporciona una medida de multicolinealidad entre las variables independientes en un modelo de regresión múltiple.
- La detección de la multicolinealidad es importante porque, si bien la multicolinealidad no reduce el poder explicativo del modelo, sí reduce la significancia estadística de las variables independientes.
- Un factor de inflación de gran varianza (FIV) en una variable independiente indica una relación altamente colineal con las otras variables que deben considerarse o ajustarse en la estructura del modelo y la selección de variables independientes.
Comprensión de un factor de inflación de varianza (VIF)
Un factor de inflación de la varianza es una herramienta que ayuda a identificar el grado de multicolinealidad. Una regresión múltiple se usa cuando una persona quiere probar el efecto de múltiples variables en un resultado en particular. La variable dependiente es el resultado sobre el que actúan las variables independientes: las entradas del modelo. La multicolinealidad existe cuando existe una relación lineal, o correlación, entre una o más de las variables independientes o entradas.
La multicolinealidad crea un problema en la regresión múltiple porque las entradas se influyen entre sí. Por lo tanto, en realidad no son independientes y es difícil probar cuánto afecta la combinación de las variables independientes a la variable dependiente, o resultado, dentro del modelo de regresión. En términos estadísticos, un modelo de regresión múltiple donde existe una alta multicolinealidad dificultará la estimación de la relación entre cada una de las variables independientes y la variable dependiente. Pequeños cambios en los datos utilizados o en la estructura de la ecuación del modelo pueden producir cambios grandes y erráticos en los coeficientes estimados de las variables independientes.
Para garantizar que el modelo esté correctamente especificado y funcione correctamente, existen pruebas que se pueden ejecutar para comprobar la multicolinealidad. El factor de inflación de la varianza es una de esas herramientas de medición. El uso de factores de inflación de la varianza ayuda a identificar la gravedad de cualquier problema de multicolinealidad para que el modelo pueda ajustarse. El factor de inflación de la varianza mide cuánto se ve influenciado o inflado el comportamiento (varianza) de una variable independiente por su interacción / correlación con las otras variables independientes. Los factores de inflación de la varianza permiten una medida rápida de cuánto contribuye una variable al error estándar en la regresión. Cuando existen problemas significativos de multicolinealidad, el factor de inflación de la varianza será muy grande para las variables involucradas. Una vez identificadas estas variables, se pueden utilizar varios enfoques para eliminar o combinar las variables colineales, resolviendo el problema de la multicolinealidad.
Consideraciones Especiales
Multicolinealidad
Si bien la multicolinealidad no reduce el poder predictivo general de un modelo, puede producir estimaciones de los coeficientes de regresión que no son estadísticamente significativos. En cierto sentido, se puede pensar en una especie de doble recuento en el modelo. Cuando dos o más variables independientes están estrechamente relacionadas o miden casi lo mismo, entonces el efecto subyacente que miden se contabiliza dos veces (o más) en todas las variables. Resulta difícil o imposible decir qué variable influye realmente en la variable independiente. Esto es un problema porque el objetivo de muchos modelos econométricos es probar exactamente este tipo de relación estadística entre las variables independientes y la variable dependiente.
Por ejemplo, suponga que un economista quiere probar si existe una relación estadísticamente significativa entre la tasa de desempleo (variable independiente) y la tasa de inflación (variable dependiente). La inclusión de variables independientes adicionales relacionadas con la tasa de desempleo, como estas nuevas solicitudes iniciales de desempleo, probablemente introduciría multicolinealidad en el modelo. El modelo general puede mostrar un poder explicativo fuerte y estadísticamente suficiente, pero no puede identificar si el efecto se debe principalmente a la tasa de desempleo oa las nuevas solicitudes iniciales de desempleo. Esto es lo que detectaría el VIF y sugeriría posiblemente eliminar una de las variables del modelo o encontrar alguna forma de consolidarlas para capturar su efecto conjunto dependiendo de la hipótesis específica que el investigador esté interesado en probar.