Врачебная тайна и конфиденциальность данных в машинном обучении

Здравоохранение ― это одна из областей, где высоко востребованы машинное обучение и конфиденциальные вычисления.

Медицинские организации, будучи хранителями защищенной медицинской информации, несут юридические и этические обязательства. Они обязаны предотвращать ненадлежащий доступ к данным, который может привести к нарушению конфиденциальности.

Эта обязанность и риск финансовых и репутационных последствий создали среду, в которой хранители данных крайне неохотно делятся конфиденциальной информацией пациентов или разрешают доступ к ней.

Чего мы не делаем в Guardora?

Кейсы, когда искусственный интеллект и техники повышения приватности данных применяются отдельно друг от друга, хорошо известны в MedTech.

Действительно, в значительной части кейсов персональные данные, по которым можно идентифицировать пациентов, подвергаются простому обезличиванию и не используются в обучении ML-моделей, а данные, на которых тренируются ML-модели, как правило, не позволяют по ним понять, какому конкретно пациенту они принадлежат. В таких случаях нужно просто вычистить текстовую информацию с персональными данными: ФИО, город, место забора анализов, и для этого на рынке существуют решения по анонимизации.

Что мы делаем в Guardora?

Мы в Guardora специализируемся и встречаемся со случаями комбинирования этих двух направлений, когда чувствительные данные сначала должны быть защищены, а после использованы для тренировки ML-моделей.

Есть кейсы, когда подобная защита требуется на всех этапах работы с данными:

передача,
хранение,
обучение ML-моделей,
проверка качества получившихся моделей,
их дообучение,
возврат результатов (инференс),
защита самих моделей, как плодов интеллектуального труда.

Какие техники мы используем?

Пожалуй, именно медицина наиболее разнообразна, с точки зрения применяемых типов данных. Неструктурированные медицинские записи анамнезов, нозологий и диагнозов, даты, числовые, категориальные, бинарные признаки, тексты, таблицы, числовые и временные ряды, формат DICOM, изображения, видео и аудио, равно как и разнообразные ML-архитектуры требуют сочетания разных методов и протоколов вычислений, повышающих приватность.

Решения Guardora основаны на использовании целого веера разных подходов:

Functional Transformation (Veils)
Fully Homomorphic Encryption
Federated Learning
Functional Encryption
Secure Multi-Party Computation

Кейсы

Вот ряд кейсов из области здравоохранения, требующих сохранения конфиденциальности чувствительных данных при обучении ML-моделей, с которыми мы сталкивались в Guardora:

Разработка, повышение качества и проверка клинических ML-алгоритмов на датасетах, принадлежащих разным владельцам.
Безопасное использование данных в экономных и универсальных облачных решениях, а не в рамках долгих, сложных и дорогих On-Premise реализаций.
Доступ к высококачественным, разнообразным наборам данных, которые представляют глобальные популяции пациентов так, чтобы алгоритмы давали одинаково точные результаты независимо от типа оборудования для сбора данных, демографических характеристик популяции пациентов, клинических условий или других социальных факторов. Чтобы соответствовать этому стандарту, разработчик алгоритма должен иметь доступ к данным, репрезентативным для той модели, с которой он столкнется при развертывании в различных клинических условиях.
Защита интеллектуальной собственности и ML-алгоритмов потенциальных конкурентов при исследованиях по поиску лекарств. Появляются новые технологии, например, CRISPR, они меняют исследования по редактированию генов, например, для борьбы с диабетом и раком. Но с новыми изобретениями появляются и проблемы безопасности. Поэтому есть потребность в полном шифровании данных даже во время их обработки.
Данные генома человека в мире всё больше охраняются как персональные, поэтому конфиденциальные вычисления при работе с подобными материалами имеют потенциал превращения в обязательное требование на законодательном уровне.
Биометрия и фетометрия плода. Предиктивный анализ фото и видео УЗИ плода.
Анализ, диагностика и предиктивные модели по радиологии, МРТ и ФМРТ. Обнаружение семиотических признаков.
Извлечение и классификации текста.
Прогнозные, диагностические модели, которые осуществляют непосредственно интерпретацию извлеченных данных.
Прогнозная аналитика.
Системы поддержки принятия врачебных решений.
Системы поддержки принятия управленческих решений.
Системы извлечения данных из неструктурированных медицинских записей.
Системы формирования цифрового профиля пациентов.
Исследования реальной клинической практики.
Продажа защищенных наборов данных или обогащение наборов данных (когда компания А что-то выгрузила, а компания В получила обогащённый сегмент, либо обратное обогащение, когда компания С что-то добавила в пользу компании А и компании В).
Привязка электронной карты с геолокацией, как существенный предиктор развития онкологических заболеваний, поскольку канцерогены имеют свойство быть территориально определёнными. Вредные выбросы каких-либо предприятий могут провоцировать рост онкологических заболеваний у местного населения.
Телемедицина и удаленное наблюдение пациентов. Интеллектуальный мониторинг безопасности пациентов и качества оказания ухода с помощью алгоритмов компьютерного зрения.
Классификация и подсчет клеток на оцифрованном мазке периферической крови и костного мозга.
Обнаружение симптомов диабетической ретинопатии на снимках глазного дна.
Анализ состояния зубов и контроль динамики.
Задачи CV: сегментация, регрессия, реконструкция, в зависимости от типа патологий.

Задачи

Познакомьтесь со списком актуальных задач, которые предстоит решить рынку для создания хороших продуктов:

Возможность формирования общего для нескольких владельцев данных ML-решения при условии обеспечения безопасности данных каждого из владельцев.
Обеспечение безопасности данных при обучении ML-модели вне доверенного контура владельца данных, например, в облаке.
Обеспечение безопасности данных при использовании (инференсе) ML-модели, развернутой вне доверенного контура владельца данных.
Защита размещенной на общедоступных ресурсах ML-модели от несанкционированного использования и кражи параметров.

Не у всех участников рынка есть возможность обеспечить безопасность на сетевом и физическом уровнях, поэтому в Guardora мы предлагаем решения на алгоритмическом и протокольном уровнях.

Если эта тема интересует вас как владельца данных или разработчика, присоединяйтесь к нашему сообществу в Discord и участвуйте в обсуждении этих насущных вопросов.

Врачебная тайна и конфиденциальность данных в машинном обучении

Последние статьи

Guardora признана одной из ведущих компаний в области инноваций на рынке Federated-Learning Edge-Display

Guardora выступила на вебинаре Ассоциации больших данных о федеративном обучении

Технологии федеративного обучения от Guardora в Лаборатории конфиденциальных вычислений АФТ