Что такое федеративное обучение и как работает FedAvg

Федеративное обучение

Новый горизонт конфиденциального машинного обучения

Давайте сначала представим наиболее распространенный на сегодня кейс машинного обучения. Существует некий субъект, располагающий достаточным количеством данных для обучения какой-либо модели.

Существует некий субъект, располагающий достаточным количеством данных для обучения какой-либо модели.

Модель может быть произвольной ― от глубоких нейронных сетей до линейной регрессии. Взаимодействие модели с данными рождает решение практической задачи, например, по детектированию объектов, транскрибированию аудио и проч. В действительности данные, с которыми приходится работать модели, исходят не от машины, на которой происходит обучение: они создаются где-то ещё.

Т.е. для проведения анализа данные различных источников должны быть собраны на каком-то центральном сервере ― например, в облаке.

Несложно представить себе ситуацию, в которой нет возможности передать данные каждого источника на сервер, например, по следующим причинам:

нежелание сторон передавать имеющуюся конфиденциальную информацию третьей стороне в открытом виде;

совокупный объем данных превышает возможности центрального хранилища;

регуляторные ограничения: GDPR (Europe), CCPA (California), PIPEDA (Canada), LGPD (Brazil) и другие защищают чувствительные данные от передачи.

Локальных же данных каждой стороны в отдельности недостаточно для обучения качественной модели. Таким образом, мы подошли к вызову, обеспечившему появление инновационной концепции федеративного обучения.

Федеративное обучение (FL от Federated learning) ― парадигма машинного обучения, при которой становится возможным обучение глобальной модели клиентов без совместного использования локальных данных.

Этот подход к машинному обучению не только решает проблемы конфиденциальности данных, но и открывает новые горизонты для разработки безопасных и эффективных моделей.

централизованное ML перемещает данные для выполнения вычислений

FL vs централизованное ML

FL перемещает вычисления к данным

Базовые принципы федеративного обучения пошагово

Шаг 0

Клиенты согласовывают глобальную модель, функцию потерь, процедуры предобработки данных. Центральный сервер инициализирует глобальную модель случайно или используя предварительно обученный чекпойнт.

Шаг 1

Сервер осуществляет рассылку параметров глобальной модели подключённым клиентам. Важно отметить, что каждый клиент начинает обучение, используя одни и те же параметры модели.

Шаг 2

Локальное обучение экземпляров модели клиентами на собственных данных. Локальное обучение выполняется от нескольких степов до нескольких эпох в зависимости от начальных договорённостей.

Шаг 3

После шага локального обучения у клиентов формируются модели с различающимися параметрами ввиду различия локальных датасетов. Клиенты возвращают центральному серверу параметры получившихся у них моделей.

Шаг 4

Сервер получает параметры моделей клиентов и осуществляет их агрегирование для обновления параметров глобальной версии.

Существуют различные подходы к процессу агрегирования параметров, но наиболее популярный метод ― FedAvg (Federated Averaging), при котором выполняется взвешенное, в соответствии с объемами локальных датасетов, усреднение полученных параметров.

Шаг 5

Шаги 1-4 формируют один раунд FL, повторяются до сходимости модели.

Важно отметить, что сами данные остаются на месте, лишь обновления модели передаются на централизованный сервер и другие устройства. Такой подход позволяет сохранять конфиденциальность данных, избегая необходимости централизованной аккумуляции.

Как и любая другая технология, FL, решая поставленную задачу, содержит как положительные, так и отрицательные особенности.

Отдельно подчеркнем положительные моменты в процедуре FL

Конфиденциальность данных

Благодаря тому, что отсутствует передача данных, FL минимизирует риск утечек или несанкционированного доступа к конфиденциальной информации.

Масштабируемость

Такой подход позволяет эффективно обрабатывать большие объёмы данных и масштабироваться на большое количество устройств без значительного увеличения нагрузки на сеть или вычислительные ресурсы.

Распределённая структура

Наличие локальных копий моделей, распределение данных среди клиентов позволяет минимизировать уязвимости, связанные с выходом из строя центрального сервера.

Эффективное использование ресурсов

FL позволяет значительно распараллелить процесс обучения глобальной модели; нет необходимости оснащения центрального сервера GPU.

Снижение эффекта дрейфа данных

Путь данных от источника до модели становится короче; меньше вероятность устаревания или искажения.

Сложности и сопутствующие задачи, которые приносит эта технология обучения

Сложность координации

Управление процессом обучения со многими клиентами требует сложной системы координации и согласования, что может затруднять развёртывание и поддержку системы.

Проблемы согласованности данных

Различия в наборах клиентских данных могут привести к несогласованности моделей или потере общности в агрегированной модели.

Вычислительные ограничения

Вычислительные ресурсы на устройствах пользователей могут быть ограничены, что усложняет обучение сложных моделей или требует дополнительной оптимизации алгоритмов.

Угрозы безопасности

Возможность атак на отдельные устройства или серверы, хранящие данные или обновления моделей, требует повышенного внимания к защите от киберугроз и мошенничества.

Необходимость кооперации

Сложность в поиске владельцев идентичных данных, желающих решить схожую практическую задачу.

Тем не менее FL нашло широкое применение в различных областях, где требуется обработка конфиденциальных данных, таких как медицина (анализ медицинских изображений и данных пациентов), финансовые услуги (анализ транзакций и обнаружение мошенничества) и интернет вещей (обработка данных с датчиков и умных устройств).

Таким образом, FL представляет собой важную технологическую инновацию в сфере PPML (Privacy Preserving Machine Learning), способную изменить ландшафт машинного обучения, сделав его более безопасным и доступным для различных секторов экономики.

Этот подход не только защищает конфиденциальность данных, но и способствует развитию новых методов обработки и анализа информации в условиях соблюдения приватности.

Однако для успешного внедрения необходимо учитывать и управлять недостатками и вызовами, которые характерны для данного метода.

Что такое федеративное обучение?

Федеративное обучение (Federated Learning, FL) — парадигма машинного обучения, при которой несколько клиентов — устройств или организаций — совместно обучают общую глобальную модель, не отправляя свои сырые данные на центральный сервер. Каждый клиент обучает локальную копию на своих данных, а затем передаёт агрегатору только обновлённые параметры модели, которые тот объединяет в новую глобальную версию. Сами данные не покидают владевшее ими устройство или организацию, поэтому FL — фундамент конфиденциального машинного обучения (PPML).

Как работает федеративное обучение пошагово?

Стандартный раунд FL состоит из шести шагов.
Шаг 0: клиенты согласовывают архитектуру глобальной модели, функцию потерь и предобработку; сервер инициализирует веса.
Шаг 1: сервер рассылает текущую глобальную модель всем клиентам.
Шаг 2: каждый клиент обучает модель локально на своих данных в течение нескольких степов или эпох.
Шаг 3: клиенты возвращают обновлённые параметры серверу.
Шаг 4: сервер агрегирует обновления (обычно алгоритмом FedAvg) в новую глобальную модель.
Шаг 5: шаги 1–4 повторяются до сходимости.

Что такое FedAvg (Federated Averaging)?

FedAvg (Federated Averaging) — стандартный алгоритм агрегации в федеративном обучении. После того как каждый клиент локально обучил модель и вернул обновлённые параметры, сервер вычисляет взвешенное среднее всех обновлений — веса пропорциональны размеру локальных датасетов. Результат становится новой глобальной моделью. FedAvg был предложен McMahan et al. (Google, 2017) и до сих пор остаётся baseline-методом агрегации, с которым сравниваются все последующие исследования FL.

Какие у федеративного обучения преимущества и недостатки?

Преимущества: сырые данные не покидают устройство (конфиденциальность); масштабируется на крупные парки устройств без пропорциональной нагрузки на сервер; устойчиво к выходу из строя центрального сервера за счёт распределённых копий; параллелизует обучение по множеству оконечных точек без необходимости в центральном GPU; сокращает дрейф данных, обучаясь ближе к источнику.
Недостатки: сложная координация между клиентами; неоднородные (non-IID) данные клиентов снижают согласованность; ограниченные вычислительные ресурсы устройств; протокол добавляет новые поверхности атаки; сложно найти партнёров с одинаковой схемой данных.

Как федеративное обучение защищает конфиденциальность данных?

FL хранит сырые данные на устройстве каждого клиента и передаёт только параметры модели (градиенты или веса). Это исключает риск «центральной honeypot», характерный для классических ML-пайплайнов. Однако одного только FL недостаточно: исследования показывают, что обновления модели могут раскрывать данные через атаки инверсии градиентов. Продуктивное FL комбинирует свойство «никаких сырых данных» с криптографической защитой — безопасной агрегацией, гомоморфным шифрованием, дифференциальной приватностью или доверенными средами исполнения (TEE).

Какие регуляторные требования стимулируют использование федеративного обучения?

FL становится всё более актуальным под действием законов о защите данных, ограничивающих трансграничную или межорганизационную передачу персональной информации. Примеры: GDPR (Европейский союз), CCPA (Калифорния), PIPEDA (Канада), LGPD (Бразилия) и российский 152-ФЗ «О персональных данных». Эти режимы требуют минимизации сбора данных и предотвращения несанкционированной передачи — федеративное обучение удовлетворяет оба условия по определению, поскольку обучающие данные остаются в регуляторном периметре, где были собраны.

Что такое PPML (конфиденциальное машинное обучение)?

PPML — Privacy-Preserving Machine Learning, или конфиденциальное машинное обучение — общий термин для технологий, позволяющих обучать и применять ML-модели, сохраняя конфиденциальность обучающих данных, инференс-запросов или параметров модели от одной или нескольких сторон. Федеративное обучение — одна из техник PPML. Другие распространённые PPML-техники: гомоморфное шифрование (вычисления на зашифрованных данных), дифференциальная приватность (статистический шум), безопасные многосторонние вычисления, доверенные среды исполнения. Промышленные PPML-системы обычно комбинируют несколько техник.

Как Guardora реализует федеративное обучение?

Guardora строит коммерческую инфраструктуру федеративного обучения на двух продуктах: Guardora VFL (вертикальное федеративное обучение для двусторонних сценариев — банк и аналитический вендор, больница и производитель носимых устройств) и Guardora FFT (федеративный файнтюнинг для адаптации больших моделей на распределённых чувствительных данных). Оба продукта комбинируют свойство «никаких сырых данных» FL с криптографической защитой: гомоморфное шифрование Paillier (1024 бита) для конфиденциальности градиентов, шифрованный gRPC для коммуникации, протестированная производительность на реальных задачах (кредитный скоринг: ROC AUC ≈ 71.3 на GBDT, 300 000 записей обучаются менее чем за 9 минут).