Fuites de données de biobanques au Royaume-Uni : les dossiers des patients exposés en ligne malgré les mesures de sécurité

0

Des données médicales sensibles de la UK Biobank, un important projet de recherche médicale détenant les dossiers de 500 000 volontaires britanniques, ont été exposées à plusieurs reprises en ligne en raison de pratiques de sécurité inadéquates. Une enquête de Guardian révèle que des chercheurs autorisés à accéder à ces données ont publié par inadvertance des fichiers contenant des informations détaillées sur les patients sur des plateformes publiques comme GitHub.

Même si ces ensembles de données manquent d’identifiants directs tels que noms et adresses, le volume considérable de dossiers exposés – notamment les diagnostics hospitaliers, les dates d’interventions et les détails démographiques – soulève de graves problèmes de confidentialité. Le risque est amplifié par les progrès de l’IA et de l’agrégation des données, qui simplifient de plus en plus la réidentification.

L’ampleur du problème

Entre juillet et décembre 2025, la UK Biobank a envoyé 80 avis juridiques à GitHub demandant la suppression des données divulguées, mais des parties importantes restent accessibles. Un seul ensemble de données contenait à lui seul les diagnostics de plus de 413 000 participants, ainsi que leurs dates de naissance et leur sexe. Le Guardian a testé le risque en fournissant un minimum d’informations personnelles à un data scientist, qui a réussi à faire correspondre avec une quasi-certitude les antécédents médicaux d’un volontaire en utilisant uniquement son mois/année de naissance et la date de l’opération.

“Cela m’a donné des frissons dans le dos rien que de l’ouvrir… C’était très détaillé et cela ressemblait à une grossière invasion de la vie privée, même à y jeter un coup d’œil.” – Un expert en données examinant les fichiers divulgués.

Réponse et critiques de la Biobanque

UK Biobank défend sa sécurité, affirmant qu’aucun nom ni adresse n’a été fourni aux chercheurs. Le PDG, le professeur Sir Rory Collins, affirme qu’aucune réidentification n’a eu lieu. Cependant, les experts estiment que cette position est irréaliste, étant donné la facilité de croiser les données à l’ère numérique.

“Est-ce que ces gens savent qu’Internet existe ?” » a demandé le professeur Felix Ritchie, économiste à l’Université de l’Ouest de l’Angleterre. “L’idée qu’ils peuvent compter sur leurs bénévoles pour ne jamais divulguer d’autres informations les concernant est une chose totalement déraisonnable à laquelle il faut s’attendre.”

Le Dr Luc Rocher, de l’Oxford Internet Institute, souligne que même des données partielles – comme les dates de naissance et les dates de blessures – peuvent suffire à identifier les individus. Une fois identifiés, ces dossiers peuvent révéler des informations extrêmement sensibles, notamment des diagnostics psychiatriques ou le statut VIH.

La tension entre recherche et confidentialité

Les fuites proviennent d’une politique autorisant les chercheurs à télécharger des données directement sur leurs systèmes jusqu’à fin 2024, combinée à une pression croissante pour publier le code de recherche. Certains chercheurs ont accidentellement inclus des ensembles de données Biobank dans ces téléchargements. Biobank a mis en place des formations complémentaires mais admet que le problème persiste.

La situation met en évidence un conflit inhérent entre la conduite de la recherche avec de grands ensembles de données et la protection de la vie privée des individus. Malgré les efforts de Biobank pour supprimer les données divulguées, les copies restent archivées en ligne, ce qui remet en question la possibilité d’un contrôle total. L’ampleur de ces fuites – des centaines d’incidents – suggère des défaillances systémiques et non des erreurs isolées.

L’incident souligne les défis croissants liés à la sécurité des données à l’ère de la science ouverte et de la réidentification basée sur l’IA. Bien que le travail de Biobank reste précieux, ces violations répétées soulèvent des doutes quant à savoir si ses garanties actuelles sont suffisantes pour protéger les données des participants.