Sesgo de selección de muestra
¿Qué es el sesgo de selección de la muestra?
El sesgo de selección de la muestra es un tipo de sesgo causado por la elección de datos no aleatorios para el análisis estadístico. El sesgo existe debido a una falla en el proceso de selección de la muestra, donde un subconjunto de los datos se excluye sistemáticamente debido a un atributo particular. La exclusión del subconjunto puede influir en la significación estadística de la prueba y puede sesgar las estimaciones de los parámetros del modelo estadístico.
Comprensión del sesgo de selección de muestras
El sesgo de supervivencia es un tipo común de sesgo de selección de la muestra. Por ejemplo, cuando se hace una prueba retrospectiva de una estrategia de inversión en un grupo grande de acciones, puede ser conveniente buscar valores que tengan datos para todo el período de la muestra. Si tuviéramos que probar la estrategia con 15 años de datos de acciones, podríamos estar inclinados a buscar acciones que tengan información completa para todo el período de 15 años. Sin embargo, eliminar una acción que dejó de cotizar, o que abandonó el mercado en breve, introduciría un sesgo en nuestra muestra de datos. Dado que solo incluimos acciones que duraron el período de 15 años, nuestros resultados finales serían defectuosos, ya que se desempeñaron lo suficientemente bien como para sobrevivir en el mercado.
Los índices de rendimiento de los fondos de cobertura son un ejemplo de sesgo de selección de la muestra sujeto al sesgo de supervivencia. Debido a que los fondos de cobertura que no sobreviven dejan de informar su desempeño a los agregadores de índices, los índices resultantes se inclinan naturalmente hacia los fondos y estrategias que permanecen, por lo tanto, «sobreviven». Esto también puede ser un problema con los populares servicios de informes de fondos mutuos.
Los analistas pueden adaptarse para tener en cuenta estos sesgos, pero pueden introducir nuevos sesgos en el proceso.