Niveles de Fiabilidad

Este post existe por una razón práctica: en Pensar es Gratis vamos a publicar artículos que citan investigaciones científicas reales. Pero no vamos a citarlas como si todas tuvieran el mismo peso. Vamos a marcar cada fuente con un indicador de fiabilidad, y vamos a explicar cuándo una investigación tiene problemas conocidos de sesgo, tamaño de muestra, conflicto de intereses o falta de replicación.

1. Qué hace que un estudio sea más o menos fiable

Tamaño de muestra y potencia estadística. Estudios con más participantes, reclutados de forma representativa, son más fiables que estudios pequeños. Busca el número de participantes. Si es inferior a 50 en un estudio de comportamiento humano, trátalo con precaución.

Replicación independiente. Un resultado que ha sido reproducido por laboratorios independientes, sin afiliación entre sí, es mucho más sólido que un resultado publicado una sola vez. Los metaanálisis y revisiones sistemáticas que sintetizan múltiples estudios son generalmente más fiables que cualquier estudio individual.

Preregistro del estudio. Cada vez más investigadores registran públicamente sus hipótesis y métodos de análisis antes de recoger datos, en plataformas como OSF (Open Science Framework). Esto hace imposible el HARKing y dificulta el p-hacking. Un estudio preregistrado merece más confianza que uno que no lo esté.

Declaración de conflictos de interés. Los artículos científicos serios declaran quién financió la investigación y qué relaciones tienen los autores con esa financiación. La ausencia de esta declaración es, por sí sola, una señal de alerta.

Población estudiada. ¿Quiénes son los participantes? ¿Son representativos de la población a la que se quiere generalizar el resultado? Un estudio en universitarios de 20 años no necesariamente dice algo sobre personas de 50 o niños de 10.

Diseño experimental vs. observacional. Los ensayos controlados aleatorizados (RCT) son el estándar de oro para establecer causalidad. Los estudios observacionales establecen correlaciones. Esta distinción importa enormemente para las conclusiones que se pueden extraer.

Revisión por pares y revista de publicación. No todas las revistas tienen los mismos estándares. Las revistas predadoras —que cobran por publicar sin revisión rigurosa— proliferan. Un artículo en Nature, Science o una revista especializada de primer cuartil del campo no equivale a un artículo en una revista de acceso abierto con estándares dudosos.

En Pensar es Gratis, cada investigación citada llevará una indicación de fiabilidad basada en estos criterios: si ha sido replicada, si el tamaño de muestra es adecuado, si hay conflictos de interés conocidos, y si el tipo de diseño permite las conclusiones que se extraen. No es perfecto, pero es un intento de tener fuentes fiables.

2. El problema de replicabilidad: cuando los experimentos no se repiten

En 2015, un consorcio de 270 investigadores publicó en Science los resultados de un proyecto tan ambicioso como perturbador: habían intentado replicar 100 estudios publicados en revistas de psicología de primer nivel. Su conclusión: solo el 36% de los estudios produjo resultados similares al original cuando se repetía el experimento. El 64% restante no se replicó, o lo hizo con efectos significativamente más débiles.

Este proyecto —conocido como el Reproducibility Project: Psychology, coordinado por Brian Nosek desde la Universidad de Virginia— fue el inicio visible de lo que los científicos llaman la crisis de replicabilidad. Pero la crisis no era solo de la psicología. Estudios similares en oncología, neurociencia, economía del comportamiento y ciencias biomédicas encontraron tasas de replicación igualmente preocupantes.

¿Por qué falla la replicación?

Las causas son múltiples y con frecuencia se acumulan en el mismo estudio:

Tamaños de muestra insuficientes. Un estudio con 30 participantes puede encontrar un efecto por azar. Si ese efecto no es real, un estudio con 300 participantes lo descubrirá. Muchos estudios históricos —especialmente en psicología social y neurociencia cognitiva— se realizaron con muestras que hoy consideraríamos demasiado pequeñas para sacar conclusiones sólidas.

P-hacking o «minería de p-valores». El valor p es un umbral estadístico que indica la probabilidad de obtener un resultado así por azar si no hubiera ningún efecto real.

El estándar convencional es p < 0.05, lo cual implica que las probabilidades de que pasen los resultados de un experimento de forma aleatoria es de sólo un 5%, y aún así han ocurrido, por lo cual se considera que hay un efecto real actuando.

El problema es que si analizas suficientes variables en los mismos datos, eventualmente encontrarás algo con p < 0.05 por pura coincidencia estadística. Hacer esto sin declararlo —probar muchas hipótesis y publicar solo la que «funciona»— infla artificialmente la tasa de falsos positivos.

HARKing (Hypothesizing After Results are Known). Consiste en hacer un experimento exploratorio, encontrar un resultado interesante de forma inesperada, y luego escribir el artículo como si ese hubiera sido el objetivo desde el principio. La práctica convierte la exploración en confirmación, distorsionando la interpretación.

Realmente la práctica de probar combinaciones a ver si nos da un efecto interesante es valida para la ciencia, pero lo que no es válido es hacerlo así y afirmar que desde un principio es lo que se buscaba.

Variabilidad de procedimiento no declarada. Dos laboratorios que siguen «el mismo protocolo» pueden estar haciendo cosas sutilmente diferentes: el momento del día en que se realizan las pruebas, las instrucciones exactas dadas a los participantes, la temperatura de la sala. En algunos dominios de investigación, estas variables importan más de lo que nadie había reconocido.

3. Los sesgos estructurales del sistema de publicación científica

El sesgo de publicación: solo se publican los resultados positivos

Las revistas científicas tienen una preferencia histórica por los resultados positivos —es decir, estudios que encuentran un efecto— sobre los resultados nulos —estudios que no encuentran ningún efecto—. Esto crea lo que se llama el sesgo de publicación o «cajón de resultados negativos»: los estudios que no encuentran nada interesante tienden a quedarse sin publicar en los archivos del laboratorio.

Las consecuencias son serias. Si diez laboratorios distintos estudian si un suplemento mejora la memoria, y uno de ellos encuentra un efecto por azar mientras los otros nueve no encuentran nada, el resultado probable es que solo el estudio positivo se publique. La literatura científica entonces refleja un efecto que no es real. Las revisiones sistemáticas y metaanálisis —que sintetizan múltiples estudios— pueden verse gravemente afectados por este sesgo si no controlan explícitamente para él.

El daño es doble, por una parte los investigadores pueden verse presionados a dar resultados positivos falsos para conseguir notoriedad y por parte de las revistas, al dar foco solo a los positivos esta dando una información sesgada sobre la realidad de lo investigado.

Este es uno de los sesgos más peligrosos actualmente, y debería de haber una obligación de publicación de todos los estudios o al menos mencionar todos los negativos, que son igual de válidos (o más) que los positivos. Sin errores no se avanza.

El sesgo de confirmación institucional

Los investigadores son humanos. Tienen hipótesis favoritas, carreras que dependen de ciertos resultados, y tendencia natural a interpretar datos ambiguos en la dirección que confirma lo que ya creían. Esto no convierte a los científicos en deshonestos: los convierte en personas. Pero el sesgo de confirmación opera de forma particularmente peligrosa en ciencia porque sus efectos pueden acumularse a través de múltiples decisiones aparentemente menores: qué datos excluir como ‘outliers’, qué análisis secundarios reportar, cómo redactar las conclusiones.

El conflicto de intereses financiero

Un metaanálisis publicado en PLOS Medicine en 2007 analizó más de 1.000 estudios sobre bebidas azucaradas y salud. Los estudios financiados por la industria de bebidas tenían cuatro veces más probabilidad de no encontrar relación entre el consumo de azúcar y la obesidad que los estudios independientes. Esta proporción —resultados favorables a quien financia la investigación— se ha documentado en farmacología, tabaco, nutrición y decenas de otros campos.

El problema no requiere fraude ni conspiración para existir. Los mecanismos son más sutiles: qué preguntas de investigación se financian, qué endpoints se miden, cuándo se detiene un estudio, qué resultados se publican y cuáles no. La financiación privada de investigación científica no es intrínsecamente problemática, pero cuando no se declara, o cuando el sistema no tiene mecanismos para mitigar sus efectos, distorsiona el cuerpo de conocimiento disponible.

La solución es evidente; Que las industrias implicadas o que se lucren de un sector no deberían de poder financiar investigaciones sobre el rendimiento de sus productos o relacionados. Es como poner al lobo a cuidar de las ovejas.

El sesgo WEIRD: ciencia hecha en un 12% del mundo

WEIRD es el acrónimo inglés de Western, Educated, Industrialized, Rich, Democratic. (Occidental, Educado, Industrializado, Rico, Democrático) .

Un análisis de Henrich, Heine y Norenzayan publicado en Behavioral and Brain Sciences en 2010 documentó que el 96% de los sujetos en estudios de psicología provenían de países occidentales, pese a representar solo el 12% de la población mundial. Con mucha frecuencia los estudios psicológicos se hacían a estudiantes universitarios americanos, un perfil muy cerrado.

Más preocupante aún: la población occidental es estadísticamente la más atípica en múltiples dimensiones psicológicas medidas comparativamente (¿Quizás la más desnaturalizada al estar en entornos más artificiales?).

Esto significa que muchos principios presentados como universales de la cognición humana, la moralidad o el comportamiento social se derivan exclusivamente de estudiantes universitarios de países anglosajones o europeos. Cuando los mismos experimentos se replican en poblaciones indígenas amazónicas, campesinas africanas o asiáticas, los resultados con frecuencia difieren de forma significativa.

4. Los sesgos cognitivos que afectan a los propios científicos

Sesgo de confirmación

Ya lo mencionamos brevemente, pero vale la pena expandirlo. El sesgo de confirmación es la tendencia a buscar, recordar e interpretar la información de forma que confirme las creencias previas. En ciencia, se manifiesta de formas sutiles: los investigadores tienden a diseñar experimentos que es difícil que contradigan su hipótesis favorita, a perseverar más en el análisis cuando los resultados son positivos, y a aceptar menos los resultados de colegas que trabajan en hipótesis rivales.

El efecto de autoridad y el argumento ad verecundiam

La ciencia no funciona por consenso de autoridades, sino por evidencia y metodología. Pero en la práctica, las afirmaciones de investigadores con alta reputación o de instituciones prestigiosas tienen desproporcionadamente más impacto en el campo que sus méritos metodológicos en ocasiones justificarían. El argumento de autoridad no es un criterio de verdad científica. Un estudio de Harvard con metodología deficiente no vale más que un estudio de una universidad desconocida con metodología impecable.

Sesgo de novedad

Las revistas y los medios de comunicación científica tienen preferencia por resultados sorprendentes, contraintuitivos o que abren nuevas áreas. Esto genera un sesgo de selección hacia hallazgos extremos, que estadísticamente tienen más probabilidad de ser falsos positivos. El fenómeno se llama a veces «maldición del ganador»: el estudio que obtiene el resultado más llamativo es el que se publica, pero también es el que más probablemente ha sobreestimado el efecto real.

Niveles de Fiabilidad

A partir de ahora, cada vez que en Pensar es Gratis citemos una investigación, encontrarás junto a la referencia una de estas indicaciones:

Fiable: Estudio replicado, tamaño de muestra adecuado, sin conflictos de interés relevantes, diseño apropiado para las conclusiones que se extraen.

Con reservas: Estudio válido pero con alguna limitación importante: muestra pequeña, sin replicación independiente todavía, financiación con posible conflicto de interés, o diseño observacional presentado con lenguaje causal.

Problemático: Estudio con problemas metodológicos conocidos, resultados no replicados, conflicto de interés grave, o cuyas conclusiones el propio artículo no justifica.

En revisión: Resultado actualmente en debate activo en la comunidad científica, con estudios que apuntan en direcciones distintas.

Cuando citemos un estudio problemático o con reservas no lo haremos para validarlo sino para documentar que existe y explicar por qué su peso evidencial es limitado. Hay estudios problemáticos en su momento que han sido claves en otros que han sido revolucionarios.La honestidad sobre las limitaciones del conocimiento disponible es más útil para ti que la ilusión de certeza.

Referencias

Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.

Nosek, B.A. et al. (2022). Replicability, robustness, and reproducibility in psychological science. Annual Review of Psychology, 73, 719–748.

Ioannidis, J.P.A. (2005). Why most published research findings are false. PLOS Medicine, 2(8), e124.

Simmons, J.P., Nelson, L.D., Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359–1366.

Henrich, J., Heine, S.J., Norenzayan, A. (2010). The weirdest people in the world? Behavioral and Brain Sciences, 33(2–3), 61–83.

Sumner, P. et al. (2014). The association between exaggeration in health related science news and academic press releases: retrospective observational study. BMJ, 349, g7015.

Makel, M.C., Plucker, J.A., Hegarty, B. (2012). Replications in psychology research: How often do they really occur? Perspectives on Psychological Science, 7(6), 537–542.

Turner, E.H. et al. (2008). Selective publication of antidepressant trials and its influence on apparent efficacy. New England Journal of Medicine, 358(3), 252–260.

Bes-Rastrollo, M. et al. (2013). Financial conflicts of interest and reporting bias regarding the association between sugar-sweetened beverages and weight gain. PLOS Medicine, 10(12), e1001578.

Chambers, C.D. (2013). Registered reports: A new publishing initiative at Cortex. Cortex, 49(3), 609–610.