Написать нам
statya5-1-min.webp
Дата
Просмотрено
eye 240
Новости компании

У стен есть уши, всё остальное ― у интернета вещей

Кейсы комбинирования интернета вещей, машинного обучения и конфиденциальных вычислений

Интернетом вещей, в широком смысле, принято считать концепцию взаимодействия физических объектов на трёх следующих уровнях.

Нижний ― это датчики, постоянно фиксирующие, например, температуру, давление, уровень и другие количественные показатели внешней и внутренней среды человека, устройств и окружающей среды.

Средний это приёмо-передаточные устройства и хабы, отвечающие за объединение, хранение и доставку данных с нижнего на верхний уровень.

Верхний программное обеспечение, при помощи которого проводится интерпретация полученных с нижнего уровня данных и принимаются решения, влияющие на нашу жизнь.

В контексте решений Guardora эта статья будет сконцентрирована на кейсах о защите данных IoT для целей ML.

Чувствительные данные в интернете вещей

По большому счёту чувствительными можно признать любые данные, которые могут быть использованы для несанкционированных действий по отношению к людям и компаниям. 

В интернете вещей (IoT), например, это геолокация, показатели здоровья с носимых устройств, биометрия, данные технического состояния личных транспортных средств и других гаджетов. 

В промышленном интернете вещей (IIoT) — любые данные с устройств, объектов и полей, признанные конфиденциальными.

Вот ряд кейсов, в которых мы встречались с комбинированием всех трёх доменов: IoT, ML и Confidential Computing:

  • Модели предиктивной аналитики состояния промышленного оборудования. Потоковые данные с датчиков, которые позволяют сказать, как скоро агрегат выйдет из строя. Цель — предотвратить момент поломки или дать рекомендации оператору-технологу, что нужно сделать, чтобы улучшить процесс ремонта и технического обслуживания.
  • Модели предиктивной оценки рисков, связанных с конкретным водителем любых транспортных средств от самокатов до автомобилей для скоринга при продаже страховок. Основной набор данных собирается с помощью мобильного приложения. Определяется тип мобильности по непосредственным данным о скорости и ускорении гироскопа, геопривязке маршрута. Геолокации, последовательности данных, которые включают то, что доступно от GPS (координаты, скорость, направление движения), данные с акселерометра в трёх осях, данные о том, где и как перемещался пользователь и о том, в какие аварии он попадал. Источником таких данных являются компании, которые продают автомобильные сигнализации с функцией слежения, а также некоторые корпоративные клиенты. Продавцы автомобильных сигнализаций начинают нарезать треки на коротенькие кусочки, так как считают, что наблюдение за точками остановки конкретного человека позволяют его идентифицировать в итоге. Где он живёт, где он работает и так далее. И даже если его имя и фамилия неизвестны, есть хороший шанс опосредованным образом персонифицировать пользователя, с соответствующими последствиями. Подобное нарезание треков делает такие данные очень неудобными для использования.
  • Большие автомобильные данные. Набор ценностей связан как с рисками дорожно-транспортных происшествий, так и с другими коммерчески полезными паттернами: где люди ездят? где останавливаются? где покупают? где они заправляются? То есть речь о выявлении каких-то паттернов, которые могут сформировать когорту пользователей, объект интереса со стороны сторонних компаний, ритейла, нефтяных компаний, развлечений. Такие большие данные собираются крупными независимыми компаниями и обрабатываются в рамках протоколов безопасных многосторонних вычислений или федеративного обучения.
  • Мониторинг окружающей среды. С одной стороны государство, ученые и общество заинтересованы в повышении качества ML-моделей, но предприятия, оказывающие существенное влияние на выбросы, не желают делиться открытыми данными, опасаясь утечек, санкций и репутационных последствий.

Эта тема и рынок очень обширны и оставляют много открытых вопросов для решения, например:

  1. Целесообразно ли комбинировать защиту и предварительную подготовку данных методами ML уже на нижнем и среднем уровнях? Или данные от нижнего уровня достаточно шифровать для передачи на верхний уровень, на котором уже выполнять полный цикл их обработки?
  2. Для решения каких задач IoT достаточно применения к данным методов анонимизации и в каких случаях требуется обеспечения конфиденциальности каждого байта передаваемого трафика? Как сильно анонимизация части данных ухудшает качество разрабатываемых на их основе ML-решений?
  3. Возможна ли стандартизация подходов в области обеспечения конфиденциальности данных с целью унификации разрабатываемого софта и обеспечения его работоспособности вне зависимости от, кто является производителем датчиков, приёмо-передаточных устройств и хранилищ данных? Или без участия специализированных участников-интеграторов организовать взаимодействие не удастся?
  4. Как получить оценки безопасности использования Edge Computing с целью экономии трафика и времени отклика моделей? И можно ли в принципе говорить о безопасности данных в данном случае?
  5. Возможно ли объединить при построении ML-решения неконфиденциальные данные, передаваемые в открытом виде, и защищенные конфиденциальные данные? И применим ли подход, когда в потоке данных защищается только часть из них, обеспечивая невозможность восстановления полной картины?

Если вам интересны эксперименты на эту тему, присоединяйтесь к нашему сообществу в Discord, участвуйте в обсуждении и пилотах.

logo

Последние статьи

все статьи
statya2-min.webp

Большие языковые модели и эффект случайного попутчика

Психолог Зик Рубин ввел термин «эффект случайного попутчика», чтобы описать склонность людей делиться личной информацией с незнакомцами, которых они вряд ли встретят снова.

eye 337
logo
statya3-min.webp

Врачебная тайна и конфиденциальность данных в машинном обучении

Здравоохранение ― это одна из областей, где высоко востребованы машинное обучение и конфиденциальные вычисления.

eye 350
logo
statya4-min.webp

Роевой интеллект и технологии повышения конфиденциальности

Как технологии повышения конфиденциальности могут помочь преодолеть проблемы развития и применения роевого интеллекта?

eye 211
logo
все статьи
Подпишитесь
на наши новости