Написать нам
statya3-min.webp
Дата
Просмотрено
eye 350
Новости компании

Врачебная тайна и конфиденциальность данных в машинном обучении

Здравоохранение ― это одна из областей, где высоко востребованы машинное обучение и конфиденциальные вычисления.

Медицинские организации, будучи хранителями защищенной медицинской информации, несут юридические и этические обязательства. Они обязаны предотвращать ненадлежащий доступ к данным, который может привести к нарушению конфиденциальности. 

Эта обязанность и риск финансовых и репутационных последствий создали среду, в которой хранители данных крайне неохотно делятся конфиденциальной информацией пациентов или разрешают доступ к ней.

Чего мы не делаем в Guardora?

Кейсы, когда искусственный интеллект и техники повышения приватности данных применяются отдельно друг от друга, хорошо известны в MedTech. 

Действительно, в значительной части кейсов персональные данные, по которым можно идентифицировать пациентов, подвергаются простому обезличиванию и не используются в обучении ML-моделей, а данные, на которых тренируются ML-модели, как правило, не позволяют по ним понять, какому конкретно пациенту они принадлежат. В таких случаях нужно просто вычистить текстовую информацию с персональными данными: ФИО, город, место забора анализов, и для этого на рынке существуют решения по анонимизации.

Что мы делаем в Guardora?

Мы в Guardora специализируемся и встречаемся со случаями комбинирования этих двух направлений, когда чувствительные данные сначала должны быть защищены, а после использованы для тренировки ML-моделей.

Есть кейсы, когда подобная защита требуется на всех этапах работы с данными:

  • передача, 
  • хранение, 
  • обучение ML-моделей, 
  • проверка качества получившихся моделей, 
  • их дообучение, 
  • возврат результатов (инференс), 
  • защита самих моделей, как плодов интеллектуального труда.

Какие техники мы используем?

Пожалуй, именно медицина наиболее разнообразна, с точки зрения применяемых типов данных. Неструктурированные медицинские записи анамнезов, нозологий и диагнозов, даты, числовые, категориальные, бинарные признаки, тексты, таблицы, числовые и временные ряды, формат DICOM, изображения, видео и аудио, равно как и разнообразные ML-архитектуры требуют сочетания разных методов и протоколов вычислений, повышающих приватность. 

Решения Guardora основаны на использовании целого веера разных подходов:

  • Functional Transformation (Veils)
  • Fully Homomorphic Encryption
  • Federated Learning
  • Functional Encryption
  • Secure Multi-Party Computation

Кейсы

Вот ряд кейсов из области здравоохранения, требующих сохранения конфиденциальности чувствительных данных при обучении ML-моделей, с которыми мы сталкивались в Guardora:

  • Разработка, повышение качества и проверка клинических ML-алгоритмов на датасетах, принадлежащих разным владельцам.
  • Безопасное использование данных в экономных и универсальных облачных решениях, а не в рамках долгих, сложных и дорогих On-Premise реализаций.
  • Доступ к высококачественным, разнообразным наборам данных, которые представляют глобальные популяции пациентов так, чтобы алгоритмы давали одинаково точные результаты независимо от типа оборудования для сбора данных, демографических характеристик популяции пациентов, клинических условий или других социальных факторов. Чтобы соответствовать этому стандарту, разработчик алгоритма должен иметь доступ к данным, репрезентативным для той модели, с которой он столкнется при развертывании в различных клинических условиях.
  • Защита интеллектуальной собственности и ML-алгоритмов потенциальных конкурентов при исследованиях по поиску лекарств. Появляются новые технологии, например, CRISPR, они меняют исследования по редактированию генов, например, для борьбы с диабетом и раком. Но с новыми изобретениями появляются и проблемы безопасности. Поэтому есть потребность в полном шифровании данных даже во время их обработки. 
  • Данные генома человека в мире всё больше охраняются как персональные, поэтому конфиденциальные вычисления при работе с подобными материалами имеют потенциал превращения в обязательное требование на законодательном уровне.
  • Биометрия и фетометрия плода. Предиктивный анализ фото и видео УЗИ плода.
  • Анализ, диагностика и предиктивные модели по радиологии, МРТ и ФМРТ. Обнаружение семиотических признаков.
  • Извлечение и классификации текста. 
  • Прогнозные, диагностические модели, которые осуществляют непосредственно интерпретацию извлеченных данных.
  • Прогнозная аналитика.
  • Системы поддержки принятия врачебных решений.
  • Системы поддержки принятия управленческих решений. 
  • Системы извлечения данных из неструктурированных медицинских записей.
  • Системы формирования цифрового профиля пациентов.
  • Исследования реальной клинической практики.
  • Продажа защищенных наборов данных или обогащение наборов данных (когда компания А что-то выгрузила, а компания В получила обогащённый сегмент, либо обратное обогащение, когда компания С что-то добавила в пользу компании А и компании В).
  • Привязка электронной карты с геолокацией, как существенный предиктор развития онкологических заболеваний, поскольку канцерогены имеют свойство быть территориально определёнными. Вредные выбросы каких-либо предприятий могут провоцировать рост онкологических заболеваний у местного населения.
  • Телемедицина и удаленное наблюдение пациентов. Интеллектуальный мониторинг безопасности пациентов и качества оказания ухода с помощью алгоритмов компьютерного зрения.
  • Классификация и подсчет клеток на оцифрованном мазке периферической крови и костного мозга.
  • Обнаружение симптомов диабетической ретинопатии на снимках глазного дна.
  • Анализ состояния зубов и контроль динамики.
  • Задачи CV: сегментация, регрессия, реконструкция, в зависимости от типа патологий.

Задачи

Познакомьтесь со списком актуальных задач, которые предстоит решить рынку для создания хороших продуктов:

  1. Возможность формирования общего для нескольких владельцев данных ML-решения при условии обеспечения безопасности данных каждого из владельцев.
  2. Обеспечение безопасности данных при обучении ML-модели вне доверенного контура владельца данных, например, в облаке.
  3. Обеспечение безопасности данных при использовании (инференсе) ML-модели, развернутой вне доверенного контура владельца данных. 
  4. Защита размещенной на общедоступных ресурсах ML-модели от несанкционированного использования и кражи параметров.

Не у всех участников рынка есть возможность обеспечить безопасность на сетевом и физическом уровнях, поэтому в Guardora мы предлагаем решения на алгоритмическом и протокольном уровнях.

Если эта тема интересует вас как владельца данных или разработчика, присоединяйтесь к нашему сообществу в Discord и участвуйте в обсуждении этих насущных вопросов.

logo

Последние статьи

все статьи
statya2-min.webp

Большие языковые модели и эффект случайного попутчика

Психолог Зик Рубин ввел термин «эффект случайного попутчика», чтобы описать склонность людей делиться личной информацией с незнакомцами, которых они вряд ли встретят снова.

eye 335
logo
statya4-min.webp

Роевой интеллект и технологии повышения конфиденциальности

Как технологии повышения конфиденциальности могут помочь преодолеть проблемы развития и применения роевого интеллекта?

eye 209
logo
statya5-1-min.webp

У стен есть уши, всё остальное ― у интернета вещей

Кейсы комбинирования интернета вещей, машинного обучения и конфиденциальных вычислений.

eye 238
logo
все статьи
Подпишитесь
на наши новости