GOBIERNO DE CALIDAD/ Primeros auxilios cuando faltan datos
Por Jorge Manrique, Rector del Colegio Jurista y director general de Gobierno de Calidad, consultoría de políticas públicas
Aunque existen datos sobre prácticamente todo, también existen datos incompletos: personas que abandonan los ensayos de medicamentos, las preguntas que la gente no responde en las encuestas, informes financieros corporativos sin terminar…esta falta de datos puede sesgar drásticamente los resultados de los modelos predictivos.
Joachim Freyberger y Björn Höppner de la Universidad de Bonn, Andreas Neuhierl, de la Universidad de Washington en St. Louis. y Michael Weber, de Chicago Booth, proponen un método mejorado para manejar los datos faltantes. Los resultados indican que su método proporciona una ventaja consistente.
El método de Freyberger, Höppner, Neuhierl y Weber llena los espacios en blanco agrupando primero las observaciones con patrones similares de datos faltantes y luego tomando las que tienen datos completos para estimar los valores faltantes. Los casos con datos completos y los que tienen datos estimados se recombinan en un conjunto de datos y se emplean mediante un modelo de regresión.
En las simulaciones en las que se utilizó el método de los investigadores para manejar los datos faltantes, las carteras obtuvieron un rendimiento de alrededor del 52 por ciento cuando se colocaron largas en las 100 acciones con el mayor rendimiento previsto (según un modelo lineal) y en corto las 100 acciones con el rendimiento previsto más bajo.
Esto superó holgadamente los rendimientos del 11 por ciento y el 49 por ciento logrados por las carteras utilizando los métodos de imputación de casos completos y media, respectivamente. Las carteras que utilizaron el enfoque de los investigadores también superaron a las que utilizaron los otros dos métodos en términos de la rentabilidad recibida por la cantidad de riesgo asumido.
El ratio de Sharpe (que mide los rendimientos ajustados al riesgo) fue de 1,79, frente a los 1,19 y 1,66 de los demás.
Cuando se empleó un modelo no lineal para hacer predicciones de rendimiento, el rendimiento superior aumentó para su método, con un rendimiento del 92 por ciento frente al 11 por ciento y el 86 por ciento de los métodos populares.
El ratio de Sharpe, por su parte, subió a 2,82, frente a los 1,29 y 2,44 de las estrategias predominantes.
Weber señala que, al identificar cuáles de los cientos de posibles predictores de rentabilidad proporcionan información sólida, el método mejorado para gestionar los valores perdidos permite a los inversores construir carteras bien equilibradas con altas rentabilidades ajustadas al riesgo.
En suma: los datos incompletos deben completarse con los patrones ya especificados si se trata de obtener resultados más certeros. Esto es cierto para todo tipo de sectores económicos e industrias y permite acotar significativamente los sesgos que se establecen con otras metodologías además de seguir un principio explícito en el Big Data: no tienes los datos.