Интернетом вещей, в широком смысле, принято считать концепцию взаимодействия физических объектов на трёх следующих уровнях.
Нижний ― это датчики, постоянно фиксирующие, например, температуру, давление, уровень и другие количественные показатели внешней и внутренней среды человека, устройств и окружающей среды.
Средний ― это приёмо-передаточные устройства и хабы, отвечающие за объединение, хранение и доставку данных с нижнего на верхний уровень.
Верхний ― программное обеспечение, при помощи которого проводится интерпретация полученных с нижнего уровня данных и принимаются решения, влияющие на нашу жизнь.
В контексте решений Guardora эта статья будет сконцентрирована на кейсах о защите данных IoT для целей ML.
Чувствительные данные в интернете вещей
По большому счёту чувствительными можно признать любые данные, которые могут быть использованы для несанкционированных действий по отношению к людям и компаниям.
В интернете вещей (IoT), например, это геолокация, показатели здоровья с носимых устройств, биометрия, данные технического состояния личных транспортных средств и других гаджетов.
В промышленном интернете вещей (IIoT) — любые данные с устройств, объектов и полей, признанные конфиденциальными.
Вот ряд кейсов, в которых мы встречались с комбинированием всех трёх доменов: IoT, ML и Confidential Computing:
- Модели предиктивной аналитики состояния промышленного оборудования. Потоковые данные с датчиков, которые позволяют сказать, как скоро агрегат выйдет из строя. Цель — предотвратить момент поломки или дать рекомендации оператору-технологу, что нужно сделать, чтобы улучшить процесс ремонта и технического обслуживания.
- Модели предиктивной оценки рисков, связанных с конкретным водителем любых транспортных средств от самокатов до автомобилей для скоринга при продаже страховок. Основной набор данных собирается с помощью мобильного приложения. Определяется тип мобильности по непосредственным данным о скорости и ускорении гироскопа, геопривязке маршрута. Геолокации, последовательности данных, которые включают то, что доступно от GPS (координаты, скорость, направление движения), данные с акселерометра в трёх осях, данные о том, где и как перемещался пользователь и о том, в какие аварии он попадал. Источником таких данных являются компании, которые продают автомобильные сигнализации с функцией слежения, а также некоторые корпоративные клиенты. Продавцы автомобильных сигнализаций начинают нарезать треки на коротенькие кусочки, так как считают, что наблюдение за точками остановки конкретного человека позволяют его идентифицировать в итоге. Где он живёт, где он работает и так далее. И даже если его имя и фамилия неизвестны, есть хороший шанс опосредованным образом персонифицировать пользователя, с соответствующими последствиями. Подобное нарезание треков делает такие данные очень неудобными для использования.
- Большие автомобильные данные. Набор ценностей связан как с рисками дорожно-транспортных происшествий, так и с другими коммерчески полезными паттернами: где люди ездят? где останавливаются? где покупают? где они заправляются? То есть речь о выявлении каких-то паттернов, которые могут сформировать когорту пользователей, объект интереса со стороны сторонних компаний, ритейла, нефтяных компаний, развлечений. Такие большие данные собираются крупными независимыми компаниями и обрабатываются в рамках протоколов безопасных многосторонних вычислений или федеративного обучения.
- Мониторинг окружающей среды. С одной стороны государство, ученые и общество заинтересованы в повышении качества ML-моделей, но предприятия, оказывающие существенное влияние на выбросы, не желают делиться открытыми данными, опасаясь утечек, санкций и репутационных последствий.
Эта тема и рынок очень обширны и оставляют много открытых вопросов для решения, например:
- Целесообразно ли комбинировать защиту и предварительную подготовку данных методами ML уже на нижнем и среднем уровнях? Или данные от нижнего уровня достаточно шифровать для передачи на верхний уровень, на котором уже выполнять полный цикл их обработки?
- Для решения каких задач IoT достаточно применения к данным методов анонимизации и в каких случаях требуется обеспечения конфиденциальности каждого байта передаваемого трафика? Как сильно анонимизация части данных ухудшает качество разрабатываемых на их основе ML-решений?
- Возможна ли стандартизация подходов в области обеспечения конфиденциальности данных с целью унификации разрабатываемого софта и обеспечения его работоспособности вне зависимости от, кто является производителем датчиков, приёмо-передаточных устройств и хранилищ данных? Или без участия специализированных участников-интеграторов организовать взаимодействие не удастся?
- Как получить оценки безопасности использования Edge Computing с целью экономии трафика и времени отклика моделей? И можно ли в принципе говорить о безопасности данных в данном случае?
- Возможно ли объединить при построении ML-решения неконфиденциальные данные, передаваемые в открытом виде, и защищенные конфиденциальные данные? И применим ли подход, когда в потоке данных защищается только часть из них, обеспечивая невозможность восстановления полной картины?
Если вам интересны эксперименты на эту тему, присоединяйтесь к нашему сообществу в Discord, участвуйте в обсуждении и пилотах.