Виток даних UK Biobank: Медичні записи пацієнтів опинилися в мережі, незважаючи на заходи безпеки

0

Конфіденційні медичні дані UK Biobank, великомасштабного медичного дослідницького проекту, що зберігає записи 500 000 британських добровольців, неодноразово опинялися у відкритому доступі до мережі через недостатні заходи безпеки. Розслідування The Guardian показало, що дослідники, які мають дозвіл на доступ до цих даних, ненавмисно публікували файли, що містять докладну інформацію про пацієнтів, на загальнодоступних платформах, таких як GitHub.

Хоча в цих наборах даних відсутні прямі ідентифікатори, такі як імена та адреси, сам обсяг розкритих записів – включаючи діагнози, дати процедур та демографічні дані – викликає серйозні побоювання щодо конфіденційності. Ризик посилюється досягненнями в галузі штучного інтелекту та агрегації даних, які роблять повторну ідентифікацію дедалі простішою.

Масштаб проблеми

З липня по грудень 2025 року UK Biobank направив до GitHub 80 юридичних повідомлень з вимогою видалити витік даних, проте значна частина інформації залишається доступною. Один із наборів даних містив діагнози більш ніж 413 000 учасників, а також дати та стать народження. The Guardian протестував ризик, надавши фахівцеві за даними мінімальну особисту інформацію, який із високим ступенем впевненості зіставив медичну історію добровольця, використовуючи лише місяць/рік народження та дату операції.

«У мене по спині пробігли мурашки, навіть просто відкривши … Це було дуже докладно і здавалося брутальним вторгненням у приватне життя, навіть просто глянувши на це». – Експерт за даними, що переглядає витік файлів.

Реакція Biobank та критика

UK Biobank захищає свою безпеку, стверджуючи, що дослідникам не надавалися імена чи адреси. Генеральний директор професор сер Рорі Коллінз стверджує, що повторної ідентифікації не відбулося. Проте експерти вважають цю позицію нереалістичною з огляду на легкість перехресного звіряння даних у цифрову епоху.

“Ці люди взагалі розуміють, що існує інтернет?” – Запитав професор Фелікс Річі, економіст з Університету Західної Англії. «Припускати, що вони можуть розраховувати на те, що їхні добровольці ніколи не розкриватимуть будь-якої іншої інформації про себе, зовсім нерозумно».

Доктор Люк Роше, з Оксфордського інтернет-інституту, зазначає, що навіть часткові дані – такі як дати народження та травми – можуть бути достатніми для визначення особистості. Після ідентифікації ці записи можуть розкрити глибоко конфіденційну інформацію, включаючи психіатричні діагнози чи ВІЛ-статус.

Протиріччя між дослідженнями та конфіденційністю

Витіки даних стали результатом політики, що дозволяла дослідникам завантажувати дані безпосередньо на свої системи до кінця 2024 року, у поєднанні з зростаючим тиском, що вимагає публікації дослідницького коду. Деякі дослідники випадково включили набори даних Biobank у ці завантаження. Biobank запровадив додаткове навчання, але визнає, що проблема зберігається.

Ця ситуація підкреслює властиве протиріччя між стимулюванням досліджень із використанням великих наборів даних та захистом приватного життя людей. Незважаючи на зусилля Biobank щодо видалення витоків даних, копії залишаються заархівованими в мережі, що ставить під сумнів можливість повного контролю. Масштаб цих витоків – сотні інцидентів – говорить про системні збої, а не про окремі помилки.

Цей інцидент підкреслює зростаючі проблеми безпеки даних в епоху відкритої науки та повторної ідентифікації на основі штучного інтелекту. Незважаючи на цінність роботи Biobank, ці повторні витоки викликають сумніви, чи достатні гарантії для захисту даних учасників.

попередня статтяЦілі артеріального тиску: Рухаюча планка для пацієнтів похилого віку
наступна статтяОдержимість Білком: Чому Ми Так Зациклені на Цьому Нутріенті?