Утечки данных UK Biobank: Медицинские записи пациентов оказались в сети, несмотря на меры безопасности

0

Конфиденциальные медицинские данные UK Biobank, крупномасштабного медицинского исследовательского проекта, хранящего записи 500 000 британских добровольцев, неоднократно оказывались в открытом доступе в сети из-за недостаточных мер безопасности. Расследование The Guardian показало, что исследователи, имеющие разрешение на доступ к этим данным, непреднамеренно публиковали файлы, содержащие подробную информацию о пациентах, на общедоступных платформах, таких как GitHub.

Хотя в этих наборах данных отсутствуют прямые идентификаторы, такие как имена и адреса, сам объем раскрытых записей – включая диагнозы, даты процедур и демографические данные – вызывает серьезные опасения по поводу конфиденциальности. Риск усугубляется достижениями в области искусственного интеллекта и агрегации данных, которые делают повторную идентификацию все более простой.

Масштаб проблемы

С июля по декабрь 2025 года UK Biobank направил в GitHub 80 юридических уведомлений с требованием удалить утечку данных, однако значительная часть информации остается доступной. Один из наборов данных содержал диагнозы более чем 413 000 участников, а также даты и пол рождения. The Guardian протестировал риск, предоставив специалисту по данным минимальную личную информацию, который с высокой степенью уверенности сопоставил медицинскую историю добровольца, используя только месяц/год рождения и дату операции.

«У меня по спине пробежали мурашки, даже просто открыв… Это было очень подробно и казалось грубым вторжением в частную жизнь, даже просто взглянув на это». – Эксперт по данным, просматривающий утечку файлов.

Реакция Biobank и критика

UK Biobank защищает свою безопасность, утверждая, что исследователям не предоставлялись имена или адреса. Генеральный директор профессор сэр Рори Коллинз утверждает, что повторной идентификации не произошло. Однако эксперты считают эту позицию нереалистичной, учитывая легкость перекрестной сверки данных в цифровую эпоху.

«Эти люди вообще понимают, что существует интернет?» – спросил профессор Феликс Ричи, экономист из Университета Западной Англии. «Предполагать, что они могут рассчитывать на то, что их добровольцы никогда не будут раскрывать какую-либо другую информацию о себе, совершенно неразумно».

Доктор Люк Роше, из Оксфордского интернет-института, отмечает, что даже частичные данные – такие как даты рождения и травм – могут быть достаточными для определения личности. После идентификации эти записи могут раскрыть глубоко конфиденциальную информацию, включая психиатрические диагнозы или ВИЧ-статус.

Противоречие между исследованиями и конфиденциальностью

Утечки данных стали результатом политики, позволявшей исследователям скачивать данные непосредственно на свои системы до конца 2024 года, в сочетании с растущим давлением, требующим публикации исследовательского кода. Некоторые исследователи случайно включили наборы данных Biobank в эти загрузки. Biobank ввел дополнительное обучение, но признает, что проблема сохраняется.

Эта ситуация подчеркивает присущее противоречие между стимулированием исследований с использованием больших наборов данных и защитой частной жизни людей. Несмотря на усилия Biobank по удалению утечек данных, копии остаются заархивированными в сети, что ставит под сомнение возможность полного контроля. Масштаб этих утечек – сотни инцидентов – говорит о системных сбоях, а не об отдельных ошибках.

Этот инцидент подчеркивает растущие проблемы безопасности данных в эпоху открытой науки и повторной идентификации на основе искусственного интеллекта. Несмотря на ценность работы Biobank, эти повторные утечки вызывают сомнения в том, достаточны ли текущие гарантии для защиты данных участников.

попередня статтяЦели артериального давления: Движущаяся планка для пожилых пациентов
наступна статтяОдержимость Белком: Почему Мы Так Зациклены на Этом Нутриенте?