FL Гид

Банки
и страхование

Федеративное машинное обучение для оценки кредитных рисков в BFSI

Отрасли

Банковское дело, финансовые услуги, страхование

Техника

Вертикальное федеративное обучение (VFL)

Тип данных

Табличные (структурированные) данные

ML-модель

Деревья решений (XGBoost)

ML-задачи

Оценка кредитных рисков и мошенничества

Задачи

  • Конфиденциальность данных (имена, адреса, транзакции)
  • Разрозненность данных между компаниями (банки, страховые компании)
  • Законодательные ограничения на передачу данных

Заказчики

Портрет пользователей федеративного обучения охватывает представителей банковского сектора и страхования, которые используют модели для предсказания рисков, оценки заемщиков и борьбы с мошенничеством.

Общие характеристики Заказчиков
  • Высокая потребность в соблюдении законодательства по защите данных.

  • Необходимость интеграции разнообразных источников данных.

  • Использование данных для предсказательной аналитики и кредитных оценок.

Задачи

Основной вызов — обучение скоринговых моделей, используя конфиденциальные данные из разных источников, таких как банки и страховые компании, без раскрытия самих данных. Задачи включают защиту данных от утечек, обеспечение анонимности и соблюдение законов о конфиденциальности.

Федеративное машинное обучение используется для построения моделей кредитного скоринга и оценки рисков, не раскрывая личные данные.

Проблемы включают:

  • Необходимость защиты чувствительных данных (история транзакций, личная информация).
  • Законодательные ограничения на обмен данными между банками и страховыми компаниями.
  • Устранение угроз, таких как инверсионные атаки и отравление данных.

Федеративное обучение для минимум 2 участников

Данные не покидают контур владельца.

ML-специалист и ресурсы находятся внутри контура владельца данных.

Защищённая синхронизация параметров локальной и глобальной модели с сервером

Проверка качества итоговой модели

Применение модели внутри контура владельца данных и интерпретация полученных результатов

Решение

Для обеспечения возможности извлечения знаний из данных обоих участников потребовалось развернуть инфраструктуру вертикального федеративного обучения.

Характер исходных данных предопределил выбор целевой модели в виде градиентного бустинга на основе решающих деревьев в реализации XGBoost.

Сторона, располагающая целевыми метками классов, названа серверной стороной; не имеющая таргетов ― клиентской стороной.

Для публичной демонстрации результатов был использован датасет, включающий:

  1. Банковские данные клиентов с присвоенным уровнем скоринга: низкий, стандартный, высокий.
  2. Данные автострахования.
  • Низкий: указывает на высокий риск для кредиторов. Возврат кредита может быть затруднительным или привести к более высоким процентным ставкам.
  • Стандартный: это приемлемый рейтинг, который указывает на некоторый риск. Как правило, позволяет вернуть кредиты на обычных условиях.
  • Высокий: указывает на низкий риск для кредиторов. Люди с таким рейтингом могут рассчитывать на лучшие условия кредитования.

Банковские данные находятся на серверной стороне ― всего 78 806 записей, содержащих описания персон на основе 12 признаков. Данные автострахования ― на клиентской, 97 224 записей по 9 признаков для каждой персоны. Каждый из датасетов содержит поле ID, позволяющее произвести сопоставление данных, относящихся к одной персоне. Каждая персона из пересечения датасетов описывается 21 признаком, которые находятся у двух сторон. Часть данных из пересечения была выделена в тестовый сет из 25 668 записей, остальная ― в обучающий.

Проводилось два цикла обучения модели XGBoost:

  • локальное, когда серверная сторона обучала классификатор только на своих данных;
  • вертикальное федеративное обучение с задействованием данных обеих сторон для предсказания кредитного рейтинга.

Для обоих случаев зафиксированы идентичные параметры модели:

'objective': 'multi:softmax''num_class': 3
'eval_metric': 'merror''max_depth': 6
learning_rate': 0.1'subsample': 0.8

Итог тестирования локальной модели,
обученной только на данных серверной стороны:
Точность: 0.817

Итог тестирования глобальной модели,
обученной на данных серверной и клиентской сторон:
Точность: 0.975

Профит от использования такого подхода по сравнению с возможностью локальной модели:

Из данной матрицы можно видеть, что, например, количество тестовых образцов с низким кредитным скором, но отнесенных обученной моделью к высокому рейтингу, сократилось на 92,66% при использовании глобальной модели федеративного обучения.

Стоит отметить, что процесс распределенного обучения более длителен, нежели централизованного. Графики демонстрируют зависимость необходимого времени для обучения модели с задаваемым количеством деревьев с использованием CPU и GPU.

Несмотря на существенные временные затраты, высокая скорость сходимости модели позволяет VFL оставаться практически ценным методом для обобщения информации из накопленных данных.

Результаты

Повышение точности кредитных скоринговых моделей более чем на 15%.

Снижение риска невозврата кредитов и мошенничества.

Увеличение уровня предсказания оттока клиентов и улучшение клиентского опыта.

Скоринговая модель была обучена на данных из разных источников (банк и страховая) при полном соблюдении конфиденциальности.

Часто задаваемые вопросы

Как банкам и страховым компаниям совместно обучать модели кредитного скоринга без обмена данными клиентов?
Банки и страховые компании располагают дополняющими данными об одних и тех же клиентах — у банков история платежей и поведение по счетам; у страховых — убытки, полисы и данные по активам. Объединение этих представлений даёт более сильную модель скоринга, но соглашения о передаче данных ограничены регуляторно (GDPR, CCPA, 152-ФЗ) и из конкурентных соображений. Вертикальное федеративное обучение (VFL) решает эту задачу: каждая сторона хранит сырые данные у себя, а через сеть передаются только зашифрованные промежуточные вычисления. Итоговая совместная модель использует информацию обоих наборов признаков, при этом ни одна сторона не видит записей другой.
Что такое вертикальное федеративное обучение (VFL) для кредитного скоринга?
VFL — это вариант федеративного обучения, при котором стороны располагают разными признаками об одних и тех же клиентах (в отличие от горизонтального FL, где у сторон одинаковые признаки о разных клиентах). Для BFSI-скоринга: банк располагает целевой переменной (метка кредитоспособности) и одним набором признаков (транзакции, история счёта); страховая — дополняющим набором (убытки, полисы, данные по транспорту). Идентификаторы клиентов сопоставляются через безопасное пересечение множеств (secure set intersection) без раскрытия идентичностей. При обучении передаются градиенты (по желанию — зашифрованные гомоморфным шифрованием Paillier), а итоговая модель в продакшене использует оба набора признаков.
Насколько повышается точность скоринга при VFL по сравнению с локальным обучением в BFSI?
На публично продемонстрированном датасете в этом кейсе (78 806 банковских записей с 12 признаками + 97 224 страховых записей с 9 признаками, классификация скоринга на Низкий / Стандартный / Высокий) XGBoost-классификатор показал точность 0.817 при обучении только на данных банка и 0.975 при совместном обучении через VFL — абсолютный прирост 15.8 п.п. Ещё важнее: доля критических ошибок (клиенты с низким скором, отнесённые моделью к высокому рейтингу) сократилась на 92.66% — именно это операционно значимое улучшение, поскольку такие ошибки приводят к дефолтам.
Какие ML-модели лучше всего подходят для федеративного кредитного скоринга?
Градиентный бустинг на решающих деревьях (XGBoost, LightGBM, CatBoost) доминирует в продуктивном скоринге, поскольку хорошо работает с табличными признаками, пропусками и взаимодействиями признаков, а также достаточно интерпретируем для регуляторной проверки. В кейсе использовался XGBoost с параметрами: `objective='multi:softmax'`, `num_class=3`, `eval_metric='merror'`, `max_depth=6`, `learning_rate=0.1`, `subsample=0.8`. Это стандартные настройки умеренной глубины — федеративная версия даёт модель с теми же гиперпараметрами, но использует наборы признаков обеих сторон при выборе расщеплений.
Как обеспечивается конфиденциальность данных при федеративном обучении в банке?
Три уровня защиты действуют одновременно.
Изоляция сырых данных: каждая сторона обучает свою модель на своём сервере внутри своего периметра; записи банка и записи страховой не покидают своих владельцев.
Шифрованный обмен градиентами: по желанию градиенты шифруются Paillier-ом (1024 бита, аддитивное гомоморфное шифрование), и принимающая сторона не может восстановить отдельные обучающие примеры из значений градиентов.
Безопасное пересечение множеств для сопоставления ID гарантирует, что списки общих клиентов сравниваются без раскрытия полных клиентских баз сторон.
Какие регуляторные требования делают федеративное обучение актуальным для банков и страховых?
Ряд режимов ограничивает межорганизационную передачу данных в финансовом секторе.
GDPR (ЕС) требует минимизации данных и законного основания для передачи.
GLBA (США, Gramm-Leach-Bliley Act) ограничивает обмен непубличной личной информацией между финансовыми организациями.
PSD2 (ЕС) требует согласия на передачу данных по счетам.
152-ФЗ (Россия) ограничивает передачу персональных данных между операторами.
CCPA / CPRA (Калифорния) даёт потребителям право ограничить обмен данными. Федеративное обучение по определению соответствует всем этим режимам, поскольку сырые персональные данные остаются в регуляторном периметре, где были собраны.
Медленнее ли VFL централизованного обучения и приемлемо ли это для продакшена?
Да — VFL-обучение длится дольше централизованного из-за накладных расходов криптографического протокола и сетевых обменов между сторонами на каждом расщеплении дерева. На рабочей нагрузке кейса распределённое обучение было заметно медленнее централизованного, но скорость сходимости модели (число деревьев до плато качества) была сопоставимой. Для задач кредитного скоринга переобучение модели обычно происходит еженедельно или ежемесячно — поэтому многочасовой пайплайн обучения вполне приемлем, тогда как продуктивный инференс (real-time скоринг) работает на стандартных XGBoost-скоростях.
Как Guardora поддерживает задачи кредитного скоринга и детектирования мошенничества?
Guardora предоставляет Guardora VFL — продуктовую платформу для двустороннего вертикального федеративного обучения в сценариях табличного ML. Платформа выполняет сопоставление ID через безопасное пересечение, координацию обучения, опциональное шифрование градиентов Paillier-ом для защиты, и инференс. Поддерживаемые модели: градиентный бустинг (XGBoost, GBDT), логистическая регрессия и другие табличные алгоритмы. Среди протестированных задач: BFSI-скоринг из этого кейса (точность с 0.817 до 0.975) и связанный кейс кредитного скоринга, где Guardora VFL по качеству сравнялся с ансамблем (стэкингом) при ROC AUC ≈ 71.3 на 300K записях, требующим передачи разметки.