Написать нам

Федеративное обучение

Новый горизонт конфиденциального машинного обучения

Давайте сначала представим наиболее распространенный на сегодня кейс машинного обучения. Существует некий субъект, располагающий достаточным количеством данных для обучения какой-либо модели.

Существует некий субъект, располагающий достаточным количеством данных для обучения какой-либо модели.
fl_01

Модель может быть произвольной ― от глубоких нейронных сетей до линейной регрессии. Взаимодействие модели с данными рождает решение практической задачи, например, по детектированию объектов, транскрибированию аудио и проч. В действительности данные, с которыми приходится работать модели, исходят не от машины, на которой происходит обучение: они создаются где-то ещё.

fl_02

Т.е. для проведения анализа данные различных источников должны быть собраны на каком-то центральном сервере ― например, в облаке.

fl_03
Несложно представить себе ситуацию, в которой нет возможности передать данные каждого источника на сервер, например, по следующим причинам:
нежелание сторон передавать имеющуюся конфиденциальную информацию третьей стороне в открытом виде;
совокупный объем данных превышает возможности центрального хранилища;
регуляторные ограничения: GDPR (Europe), CCPA (California), PIPEDA (Canada), LGPD (Brazil) и другие защищают чувствительные данные от передачи.
Локальных же данных каждой стороны в отдельности недостаточно для обучения качественной модели. Таким образом, мы подошли к вызову, обеспечившему появление инновационной концепции федеративного обучения.

Федеративное обучение (FL от Federated learning) ― парадигма машинного обучения, при которой становится возможным обучение глобальной модели клиентов без совместного использования локальных данных.

Этот подход к машинному обучению не только решает проблемы конфиденциальности данных, но и открывает новые горизонты для разработки безопасных и эффективных моделей.

federated_learning_4
централизованное ML перемещает данные для выполнения вычислений
FL vs централизованное ML
federated_learning_5
FL перемещает вычисления к данным

Базовые принципы федеративного обучения пошагово

Шаг 0

Клиенты согласовывают глобальную модель, функцию потерь, процедуры предобработки данных. Центральный сервер инициализирует глобальную модель случайно или используя предварительно обученный чекпойнт.

Шаг 1

Сервер осуществляет рассылку параметров глобальной модели подключённым клиентам. Важно отметить, что каждый клиент начинает обучение, используя одни и те же параметры модели.

fl_step1
Шаг 2

Локальное обучение экземпляров модели клиентами на собственных данных. Локальное обучение выполняется от нескольких степов до нескольких эпох в зависимости от начальных договорённостей.

fl_step2
Шаг 3

После шага локального обучения у клиентов формируются модели с различающимися параметрами ввиду различия локальных датасетов. Клиенты возвращают центральному серверу параметры получившихся у них моделей.

fl_step3
Шаг 4

Сервер получает параметры моделей клиентов и осуществляет их агрегирование для обновления параметров глобальной версии.

Существуют различные подходы к процессу агрегирования параметров, но наиболее популярный метод ― FedAvg (Federated Averaging), при котором выполняется взвешенное, в соответствии с объемами локальных датасетов, усреднение полученных параметров.

fl_step4
Шаг 5

Шаги 1-4 формируют один раунд FL, повторяются до сходимости модели.

Важно отметить, что сами данные остаются на месте, лишь обновления модели передаются на централизованный сервер и другие устройства. Такой подход позволяет сохранять конфиденциальность данных, избегая необходимости централизованной аккумуляции.

Как и любая другая технология, FL, решая поставленную задачу, содержит как положительные, так и отрицательные особенности.

Отдельно подчеркнем положительные моменты в процедуре FL

Конфиденциальность данных

Благодаря тому, что отсутствует передача данных, FL минимизирует риск утечек или несанкционированного доступа к конфиденциальной информации.

Масштабируемость

Такой подход позволяет эффективно обрабатывать большие объёмы данных и масштабироваться на большое количество устройств без значительного увеличения нагрузки на сеть или вычислительные ресурсы.

Распределённая структура

Наличие локальных копий моделей, распределение данных среди клиентов позволяет минимизировать уязвимости, связанные с выходом из строя центрального сервера.

Эффективное использование ресурсов

FL позволяет значительно распараллелить процесс обучения глобальной модели; нет необходимости оснащения центрального сервера GPU.

Снижение эффекта дрейфа данных

Путь данных от источника до модели становится короче; меньше вероятность устаревания или искажения.

Сложности и сопутствующие задачи, которые приносит эта технология обучения

Сложность координации

Управление процессом обучения со многими клиентами требует сложной системы координации и согласования, что может затруднять развёртывание и поддержку системы.

Проблемы согласованности данных

Различия в наборах клиентских данных могут привести к несогласованности моделей или потере общности в агрегированной модели.

Вычислительные ограничения

Вычислительные ресурсы на устройствах пользователей могут быть ограничены, что усложняет обучение сложных моделей или требует дополнительной оптимизации алгоритмов.

Угрозы безопасности

Возможность атак на отдельные устройства или серверы, хранящие данные или обновления моделей, требует повышенного внимания к защите от киберугроз и мошенничества.

Необходимость кооперации

Сложность в поиске владельцев идентичных данных, желающих решить схожую практическую задачу.

Тем не менее FL нашло широкое применение в различных областях, где требуется обработка конфиденциальных данных, таких как медицина (анализ медицинских изображений и данных пациентов), финансовые услуги (анализ транзакций и обнаружение мошенничества) и интернет вещей (обработка данных с датчиков и умных устройств).

Таким образом, FL представляет собой важную технологическую инновацию в сфере PPML (Privacy Preserving Machine Learning), способную изменить ландшафт машинного обучения, сделав его более безопасным и доступным для различных секторов экономики.

Этот подход не только защищает конфиденциальность данных, но и способствует развитию новых методов обработки и анализа информации в условиях соблюдения приватности.

Однако для успешного внедрения необходимо учитывать и управлять недостатками и вызовами, которые характерны для данного метода.