Poufne dane medyczne brytyjskiego Biobanku, zakrojonego na szeroką skalę projektu badań medycznych, w którym przechowywane są dane 500 000 brytyjskich wolontariuszy, były wielokrotnie ujawniane w Internecie ze względu na niewystarczające środki bezpieczeństwa. Dochodzenie przeprowadzone przez The Guardian wykazało, że badacze mający pozwolenie na dostęp do danych nieumyślnie publikowali pliki zawierające szczegółowe informacje o pacjentach na platformach publicznych, takich jak GitHub.
Chociaż w tych zbiorach danych brakuje bezpośrednich identyfikatorów, takich jak nazwiska i adresy, sama liczba ujawnionych danych – w tym diagnozy, daty zabiegów i dane demograficzne – budzi poważne obawy dotyczące prywatności. Ryzyko zwiększa postęp w sztucznej inteligencji i agregacji danych, dzięki którym ponowna identyfikacja staje się coraz łatwiejsza.
Zakres problemu
Od lipca do grudnia 2025 r. brytyjski Biobank wystosował do GitHub 80 zawiadomień prawnych, żądając usunięcia wycieku danych, ale większość informacji pozostaje dostępna. Jeden ze zbiorów danych zawierał diagnozy ponad 413 000 uczestników, a także daty urodzenia i płeć. The Guardian sprawdził ryzyko, przekazując minimalną ilość danych osobowych analitykowi danych, który z dużą dozą pewności dopasował historię medyczną ochotnika, wykorzystując jedynie miesiąc/rok urodzenia i datę operacji.
„Od samego początku ciarki przeszły mi po plecach… Był bardzo szczegółowy i od samego patrzenia miałem wrażenie, że doszło do rażącego naruszenia prywatności”. – Ekspert ds. danych przeglądający pliki, które wyciekły.
Reakcja i krytyka Biobanku
UK Biobank broni swojego bezpieczeństwa, twierdząc, że badaczom nie podano żadnych nazwisk ani adresów. Dyrektor generalny, profesor Sir Rory Collins, twierdzi, że nie doszło do ponownej identyfikacji. Eksperci twierdzą jednak, że takie stanowisko jest nierealne, biorąc pod uwagę łatwość sprawdzania danych w epoce cyfrowej.
„Czy ci ludzie w ogóle rozumieją, że Internet istnieje?” – zapytał profesor Felix Ritchie, ekonomista z Uniwersytetu Zachodniej Anglii. „Sugerowanie, że mogą oczekiwać, że ich wolontariusze nigdy nie ujawnią żadnych innych informacji o sobie, jest całkowicie nierozsądne”.
Dr Luke Roche z Oxford Internet Institute zauważa, że nawet częściowe dane – takie jak daty urodzenia i obrażenia – mogą wystarczyć do ustalenia konkretnej osoby. Po zidentyfikowaniu dane te mogą ujawnić bardzo wrażliwe informacje, w tym diagnozy psychiatryczne lub status HIV.
Kontrowersje między badaniami naukowymi a prywatnością
Wycieki danych były wynikiem polityki umożliwiającej badaczom pobieranie danych bezpośrednio do swoich systemów do końca 2024 r., w połączeniu z rosnącą presją na publikowanie kodu badawczego. Niektórzy badacze przypadkowo umieścili w tych plikach zbiory danych Biobanku. Biobank wprowadził dodatkowe szkolenia, ale przyznaje, że problem pozostaje.
Sytuacja ta uwydatnia nieodłączne napięcie pomiędzy promowaniem badań wykorzystujących duże zbiory danych a ochroną prywatności ludzi. Pomimo wysiłków Biobanku mających na celu usunięcie wycieków danych, kopie pozostają archiwizowane w Internecie, co stawia pod znakiem zapytania możliwość pełnej kontroli. Skala tych wycieków – setki incydentów – sugeruje awarie systemu, a nie pojedyncze błędy.
Incydent uwydatnia rosnące wyzwania związane z bezpieczeństwem danych w erze otwartej nauki i ponownej identyfikacji opartej na sztucznej inteligencji. Pomimo wartości pracy Biobanku, te powtarzające się wycieki budzą wątpliwości, czy obecne zabezpieczenia wystarczą do ochrony danych uczestników.
