Los datos médicos confidenciales del Biobanco del Reino Unido, un importante proyecto de investigación médica que contiene registros de 500.000 voluntarios británicos, han sido expuestos repetidamente en línea debido a prácticas de seguridad inadecuadas. Una investigación de Guardian revela que los investigadores aprobados para acceder a estos datos han publicado sin darse cuenta archivos que contienen información detallada de los pacientes en plataformas públicas como GitHub.
Si bien estos conjuntos de datos carecen de identificadores directos como nombres y direcciones, el gran volumen de registros expuestos (incluidos diagnósticos hospitalarios, fechas de procedimientos y detalles demográficos) plantea serias preocupaciones sobre la privacidad. El riesgo se ve amplificado por los avances en la inteligencia artificial y la agregación de datos, que hacen que la reidentificación sea cada vez más sencilla.
La magnitud del problema
Entre julio y diciembre de 2025, UK Biobank emitió 80 avisos legales a GitHub solicitando la eliminación de datos filtrados, pero una parte importante sigue siendo accesible. Un solo conjunto de datos contenía diagnósticos de más de 413.000 participantes, junto con fechas de nacimiento y sexo. The Guardian probó el riesgo proporcionando información personal mínima a un científico de datos, quien logró cotejar el historial médico de un voluntario con casi certeza utilizando solo su mes/año de nacimiento y una fecha de cirugía.
“Me provocó escalofríos incluso el solo hecho de abrirlo… Era muy detallado y parecía una gran invasión de la privacidad, incluso de solo mirarlo”. – Un experto en datos revisando los archivos filtrados.
Respuesta y críticas del Biobanco
UK Biobank defiende su seguridad y afirma que no se proporcionaron nombres ni direcciones a los investigadores. El director ejecutivo, el profesor Sir Rory Collins, afirma que no se ha producido ninguna reidentificación. Sin embargo, los expertos sostienen que esta postura no es realista, dada la facilidad de cruzar datos en la era digital.
“¿Estas personas son conscientes de que Internet existe?” preguntó el profesor Felix Ritchie, economista de la Universidad del Oeste de Inglaterra. “La idea de que puedan confiar en que sus voluntarios nunca publicarán ninguna otra información sobre ellos mismos es algo totalmente irrazonable”.
El Dr. Luc Rocher, del Oxford Internet Institute, señala que incluso datos parciales (como fechas de nacimiento y fechas de lesiones) pueden ser suficientes para identificar a las personas. Una vez identificados, estos registros pueden revelar información profundamente sensible, incluidos diagnósticos psiquiátricos o estado serológico respecto del VIH.
La tensión entre investigación y privacidad
Las filtraciones surgen de una política que permite a los investigadores descargar datos directamente en sus sistemas hasta finales de 2024, combinada con una presión cada vez mayor para publicar el código de investigación. Algunos investigadores incluyeron accidentalmente conjuntos de datos del Biobanco en estas cargas. Biobank ha introducido más formación, pero admite que el problema persiste.
La situación pone de relieve un conflicto inherente entre impulsar la investigación con grandes conjuntos de datos y proteger la privacidad individual. A pesar de los esfuerzos de Biobank por eliminar los datos filtrados, las copias permanecen archivadas en línea, lo que cuestiona si se puede lograr un control total. La magnitud de estas filtraciones (cientos de incidentes) sugiere fallas sistémicas, no errores aislados.
El incidente subraya los crecientes desafíos de la seguridad de los datos en la era de la ciencia abierta y la reidentificación impulsada por la IA. Si bien el trabajo de Biobank sigue siendo valioso, estas repetidas violaciones plantean dudas sobre si sus salvaguardas actuales son suficientes para proteger los datos de los participantes.



















