Написать нам

Банки
и страхование

Федеративное машинное обучение для оценки кредитных рисков в BFSI

Отрасли

Банковское дело, финансовые услуги, страхование

Техника

Вертикальное федеративное обучение (VFL)

Тип данных

Табличные (структурированные) данные

ML-модель

Деревья решений (XGBoost)

ML-задачи

Оценка кредитных рисков и мошенничества

Задачи

  • Конфиденциальность данных (имена, адреса, транзакции)
  • Разрозненность данных между компаниями (банки, страховые компании)
  • Законодательные ограничения на передачу данных

Заказчики

Портрет пользователей федеративного обучения охватывает представителей банковского сектора и страхования, которые используют модели для предсказания рисков, оценки заемщиков и борьбы с мошенничеством.

Общие характеристики Заказчиков
  • Высокая потребность в соблюдении законодательства по защите данных.

  • Необходимость интеграции разнообразных источников данных.

  • Использование данных для предсказательной аналитики и кредитных оценок.

Задачи

Основной вызов — обучение скоринговых моделей, используя конфиденциальные данные из разных источников, таких как банки и страховые компании, без раскрытия самих данных. Задачи включают защиту данных от утечек, обеспечение анонимности и соблюдение законов о конфиденциальности.

Федеративное машинное обучение используется для построения моделей кредитного скоринга и оценки рисков, не раскрывая личные данные.

Проблемы включают:

  • Необходимость защиты чувствительных данных (история транзакций, личная информация).
  • Законодательные ограничения на обмен данными между банками и страховыми компаниями.
  • Устранение угроз, таких как инверсионные атаки и отравление данных.

Федеративное обучение для минимум 2 участников

Данные не покидают контур владельца.

ML-специалист и ресурсы находятся внутри контура владельца данных.

Защищённая синхронизация параметров локальной и глобальной модели с сервером

Проверка качества итоговой модели

Применение модели внутри контура владельца данных и интерпретация полученных результатов

Решение

Для обеспечения возможности извлечения знаний из данных обоих участников потребовалось развернуть инфраструктуру вертикального федеративного обучения.

Характер исходных данных предопределил выбор целевой модели в виде градиентного бустинга на основе решающих деревьев в реализации XGBoost.

Сторона, располагающая целевыми метками классов, названа серверной стороной; не имеющая таргетов ― клиентской стороной.

Для публичной демонстрации результатов был использован датасет, включающий:

  1. Банковские данные клиентов с присвоенным уровнем скоринга: низкий, стандартный, высокий.
  2. Данные автострахования.
  • Низкий: указывает на высокий риск для кредиторов. Возврат кредита может быть затруднительным или привести к более высоким процентным ставкам.
  • Стандартный: это приемлемый рейтинг, который указывает на некоторый риск. Как правило, позволяет вернуть кредиты на обычных условиях.
  • Высокий: указывает на низкий риск для кредиторов. Люди с таким рейтингом могут рассчитывать на лучшие условия кредитования.

Банковские данные находятся на серверной стороне ― всего 78 806 записей, содержащих описания персон на основе 12 признаков. Данные автострахования ― на клиентской, 97 224 записей по 9 признаков для каждой персоны. Каждый из датасетов содержит поле ID, позволяющее произвести сопоставление данных, относящихся к одной персоне. Каждая персона из пересечения датасетов описывается 21 признаком, которые находятся у двух сторон. Часть данных из пересечения была выделена в тестовый сет из 25 668 записей, остальная ― в обучающий.

Проводилось два цикла обучения модели XGBoost:

  • локальное, когда серверная сторона обучала классификатор только на своих данных;
  • вертикальное федеративное обучение с задействованием данных обеих сторон для предсказания кредитного рейтинга.

Для обоих случаев зафиксированы идентичные параметры модели:

'objective': 'multi:softmax''num_class': 3
'eval_metric': 'merror''max_depth': 6
learning_rate': 0.1'subsample': 0.8

Итог тестирования локальной модели,
обученной только на данных серверной стороны:
Точность: 0.817

Итог тестирования глобальной модели,
обученной на данных серверной и клиентской сторон:
Точность: 0.975

Профит от использования такого подхода по сравнению с возможностью локальной модели:

Из данной матрицы можно видеть, что, например, количество тестовых образцов с низким кредитным скором, но отнесенных обученной моделью к высокому рейтингу, сократилось на 92,66% при использовании глобальной модели федеративного обучения.

Стоит отметить, что процесс распределенного обучения более длителен, нежели централизованного. Графики демонстрируют зависимость необходимого времени для обучения модели с задаваемым количеством деревьев с использованием CPU и GPU.

Несмотря на существенные временные затраты, высокая скорость сходимости модели позволяет VFL оставаться практически ценным методом для обобщения информации из накопленных данных.

Результаты

Повышение точности кредитных скоринговых моделей более чем на 15%.

Снижение риска невозврата кредитов и мошенничества.

Увеличение уровня предсказания оттока клиентов и улучшение клиентского опыта.

Скоринговая модель была обучена на данных из разных источников (банк и страховая) при полном соблюдении конфиденциальности.