I dati medici sensibili della UK Biobank, un importante progetto di ricerca medica che raccoglie dati per 500.000 volontari britannici, sono stati ripetutamente esposti online a causa di pratiche di sicurezza inadeguate. Un’indagine del Guardian rivela che i ricercatori autorizzati ad accedere a questi dati hanno inavvertitamente pubblicato file contenenti informazioni dettagliate sui pazienti su piattaforme pubbliche come GitHub.
Sebbene questi set di dati siano privi di identificatori diretti come nomi e indirizzi, l’enorme volume di documenti esposti – comprese diagnosi ospedaliere, date delle procedure e dettagli demografici – solleva seri problemi di privacy. Il rischio è amplificato dai progressi nell’intelligenza artificiale e nell’aggregazione dei dati, che rendono la reidentificazione sempre più semplice.
La portata del problema
Tra luglio e dicembre 2025, UK Biobank ha emesso 80 avvisi legali a GitHub richiedendo la rimozione dei dati trapelati, ma parti significative rimangono accessibili. Un solo set di dati conteneva diagnosi per oltre 413.000 partecipanti, insieme a date di nascita e sesso. Il Guardian ha testato il rischio fornendo informazioni personali minime a un data scientist, che ha abbinato con successo la storia medica di un volontario con una quasi certezza utilizzando solo il mese/anno di nascita e la data dell’intervento.
“Mi faceva venire i brividi anche solo ad aprirlo… Era molto dettagliato e sembrava una grave invasione della privacy anche solo a guardarlo.” – Un esperto di dati che esamina i file trapelati.
Risposta e critiche della Biobanca
UK Biobank difende la propria sicurezza, affermando che ai ricercatori non sono stati forniti nomi o indirizzi. Il CEO, il professor Sir Rory Collins, afferma che non è avvenuta alcuna reidentificazione. Tuttavia, gli esperti sostengono che questa posizione non è realistica, data la facilità dei riferimenti incrociati dei dati nell’era digitale.
“Queste persone sono consapevoli dell’esistenza di Internet?” ha chiesto il professor Felix Ritchie, economista dell’Università dell’Inghilterra occidentale. “L’idea che possano fare affidamento sul fatto che i loro volontari non diffondano mai altre informazioni su se stessi è una cosa del tutto irragionevole da aspettarsi”.
Il dottor Luc Rocher, dell’Oxford Internet Institute, sottolinea che anche i dati parziali – come le date di nascita e quelle degli infortuni – possono essere sufficienti per individuare gli individui. Una volta identificati, questi record possono rivelare informazioni profondamente sensibili, comprese diagnosi psichiatriche o stato dell’HIV.
La tensione tra ricerca e privacy
Le fughe di notizie derivano da una politica che consente ai ricercatori di scaricare i dati direttamente sui loro sistemi fino alla fine del 2024, combinata con una crescente pressione per pubblicare il codice di ricerca. Alcuni ricercatori hanno accidentalmente incluso i set di dati della Biobanca in questi caricamenti. Biobank ha introdotto ulteriore formazione ma ammette che il problema persiste.
La situazione evidenzia un conflitto intrinseco tra la conduzione della ricerca con grandi set di dati e la protezione della privacy individuale. Nonostante gli sforzi di Biobank per rimuovere i dati trapelati, le copie rimangono archiviate online, mettendo in dubbio se sia possibile ottenere il pieno controllo. La portata di queste fughe di notizie – centinaia di incidenti – suggerisce fallimenti sistemici, non errori isolati.
L’incidente sottolinea le crescenti sfide della sicurezza dei dati nell’era della scienza aperta e della reidentificazione guidata dall’intelligenza artificiale. Sebbene il lavoro di Biobank rimanga prezioso, queste ripetute violazioni sollevano dubbi sul fatto che le sue attuali garanzie siano sufficienti a proteggere i dati dei partecipanti.
