Spiegelhalter, D. (2020/23). El arte de la estadística. Cómo aprender de los datos. Madrid: Capitán Swing.
Que el dataísmo o datoísmo es moda actual parece no suscitar demasiadas dudas. Que pueda incluso alcanzar, en casos extremos, la categoría de religión –adoración de los datos- también parece ocurrir lamentablemente. Que oigamos, en ocasiones, que los datos hablan por sí mismos (sin una buena interpretación -por mentes bien preparadas- sería mejor tal vez que callasen) es relativamente frecuente. La dura realidad: ni siquiera la apabullante cantidad de datos –macrodatos: número y parámetros- habla por sí sola.
La cuestión que se pretende dilucidar en esta obra, netamente divulgativa y escrita por un autor reconocido internacionalmente como competente en la materia, es la de saber hasta qué punto la ciencia estadística puede sernos de imprescindible ayuda para comprender el mundo y realizar mejores juicios –más acertados- sobre las personas, las sociedades y el propio universo. La respuesta –queda anticipada- es afirmativa. Veamos, pues, con cierto detenimiento, los fundamentos científicos.
El punto de partida es el de la transformación de las experiencias humanas en datos, asunto algo más complicado de lo que pudiera parecer a primera vista, debido ante todo a las imperfecciones inherentes a los instrumentos de valoración y a la variabilidad tanto definicional como de las medidas utilizadas. Por ello, es muy aconsejable tener en cuenta la denominada alfabetización de datos. Esto requiere un cambio sustancial en la forma de aprender y enseñar la estadística, como puede ser la estructura PPDAC: a) problema (bien definido); b) plan (buen diseño); c) datos (debidamente gestionados); d) análisis (las buenas visualizaciones previas ayudarían mucho: always visualize your data-, así como la comprobación de hipótesis, evitando la apofenia y la búsqueda obsesiva de significación estadística, dado que puede llevar fácilmente a falsas ilusiones, si no se da una correcta interpretación-) y, al final, e) las conclusiones/comunicación, con sus inevitables limitaciones consustanciales a todo ser humano y con la selección de marcos – positivos o negativos-, siendo conscientes de que no hay una única forma “correcta” de representar conjuntos de números.
Si queremos lograr una buena alfabetización de datos, comencemos aprendiendo de los datos –inferencia inductiva: datos (medición) > muestra (verdadero muestreo: correcta representación, señalando en todo caso las limitaciones cuando no fuere posible) > población objeto de estudio (validez externa) > población objetivo-.
Como cabía imaginar las falacias siempre suelen estar al acecho en las interpretaciones de los datos, lo que nos obliga -por aprendizaje- a detectarlas: la de la evidencia (pruebas) incompleta, la de equiparar correlación con causación o la del apostador. Además, se ha de procurar por todos los medios controlar los sesgos –conscientes o inconscientes-, que exigen un gran esfuerzo personal si nos queremos librar –dentro de lo humanamente posible- de interpretaciones tendenciosas de los resultados.
Esto nos conduce a mantener una saludable dosis de escepticismo (los modelos suelen estar equivocados, aunque algunos son muy útiles –necesarios-) a la hora de inferir cualquier tipo de conclusión científica –paradoja de la amalgamación, causalidad inversa, factores ocultos, regresión a la media…-. Hay que seguir manteniendo cierto escepticismo incluso cuando es posible –no tan frecuentemente- una aleatorización en la asignación de los sujetos a los grupos control y experimental.
Hasta aquí el análisis de la estadística dentro del contexto de la ciencia –cómo funcionamos nosotros o la realidad que nos circunda- y ¿qué pasa cuando nos movemos hacia la estadística como tecnología –analítica predictiva-? La utilización de algoritmos (inteligencia artificial) presenta innegables desafíos (falta de robustez, no tener en cuenta la variabilidad estadística, sesgo implícito, falta de transparencia…). De ahí que debamos considerar su poder –inmenso- a la par que sus limitaciones (cajas negras inescrutables –lado oscuro de los algoritmos-, pese a la posible utilización de ingeniería inversa del algoritmo…), a la hora de lograr un desarrollo futuro –predecible-, básicamente humano (justo). Cuando se construyen algoritmos, ser humilde resulta crucial.
Como complemento derivado, a la hora de presentar los resultados es prescriptivo, en consecuencia, ofrecer al menos los intervalos de incertidumbre, los márgenes de error, contando en principio con que son los adecuados, cosa que no siempre ocurre. Además, es necesario señalar que se necesita buen juicio para evaluarlos.
Y todo ello ha de estar vertebrado por un principio esencial: la calidad de los datos, pues todo nos remite necesariamente, en cada paso, a los datos –desde el problema a la comunicación-. Aviso muy oportuno y bien fundamentado, pues, para las personas especializadas en la ciencia estadística –incluidas las de mente bayesiana (utilizan métodos bayesianos)- e igualmente para todas las beneficiadas o perjudicadas por sus múltiples aplicaciones en un mundo cada vez más digitalizado y enfrentado a problemas complejos y trascendentes. Bienvenida, por tanto, esta obra clara y rigurosa de divulgación científica que nos puede ayudar mucho en la comprensión de los datos de un modo menos sesgado -con atención a las posibles falacias y a las malas prácticas científicas (crisis de reproductibilidad)- y, por ende, a un conocimiento (sabiduría) más correcto, más riguroso, más científico.