FL Гид

Кредитный скоринг

Вертикальное федеративное обучение моделей кредитного скоринга без компрометации разметки

Индустрия:

Банковский сектор, финансовые сервисы, скоринговые продукты

Технология:

Вертикальное федеративное обучение (VFL)

Тип данных:

Табличные (структурированные) данные

ML-модели:

Градиентный бустинг (GBDT)

ML-задача:

Кредитный скоринг

Продукт:

Guardora VFL

Портрет заказчика

Компания-вендор в сфере аналитических продуктов и предиктивной аналитики, которая предоставляет услуги кредитного скоринга коммерческим банкам.

Вендор располагает массивом данных о пользователях и на их основе строит модели оценки кредитоспособности для финансовых организаций.

Клиенты вендора используют эти модели для принятия кредитных решений, управления рисками и противодействия мошенничеству.

Характеристики заказчика:
  • Высокие требования к соблюдению законодательства о защите персональных данных

  • Потребность в обогащении моделей внешними источниками данных без компрометации конфиденциальности

  • Использование предиктивной аналитики для кредитного скоринга и оценки рисков

Задача

Вендор аналитических продуктов предоставляет услуги кредитного скоринга коммерческим банкам. В текущем процессе для построения совместной модели используется метод ансамблирования (стэкинг): каждая сторона обучает собственную модель на своих данных, после чего результаты обеих моделей объединяются в итоговую оценку.

Для обучения модели на стороне вендора необходимо передать разметку (целевую переменную) от банка в открытом виде. Разметка — это конфиденциальная информация банка, содержащая исторические данные о кредитоспособности клиентов.

Передача разметки требует согласования между сторонами и соблюдения внутренних процедур информационной безопасности и комплаенса.

Основной вопрос вендора: могут ли разные компании построить одну ML модель, не раскрывая данные друг другу, чтобы в итоговой модели были использованы дата-сеты всех сторон, а качество модели было лучше, чем качество отдельных локальных моделей?

Ключевые проблемы:

  • Конфиденциальность разметки: банк не готов передавать таргет внешнему партнёру.
  • Децентрализация данных: признаки распределены между двумя сторонами.
  • Регуляторные ограничения: передача данных ограничена законодательством.

Цель тестирования: сопоставить качество модели, обученной методом вертикального федеративного обучения (VFL), с качеством локальных моделей каждой из сторон и с качеством ансамбля (стэкинга) двух моделей — при условии, что в рамках VFL разметка не передаётся между сторонами.

Решение

Для решения задачи была развёрнута платформа Guardora VFL

Решение для вертикального федеративного обучения, в рамках которого две стороны совместно обучают ML-модель без передачи исходных данных и разметки.

Участники и распределение данных

Тестирование проводилось с имитацией двух сторон:

01/

Активная сторона (банк): располагает разметкой (целевой переменной — бинарным признаком кредитоспособности 0/1), идентификаторами
клиентов и частью признаков.

02/

Пассивная сторона (вендор): располагает ~200 признаками по тем же клиентам, но не имеет разметки.

Модели и защита данных

Тестирование проводилось с использованием модели градиентного бустинга на решающих деревьях (GBDT) (модель из 100 деревьев глубины не более 6) — основная модель для работы с табличными данными.

Защита данных обеспечена в рамках двух режимов безопасности:

  • Гомоморфное шифрование градиентов (алгоритм Пайе) — максимальный уровень защиты: исходные данные и градиенты не покидают контур в открытом виде.
  • Режим без шифрования — исходные данные не передаются, однако градиенты передаются в открытом виде. Дает высокую скорость обучения.

Результаты

Сравнение подходов

В таблице ниже представлены результаты тестирования:

ПодходROC_AUCПередача разметки
Локальная модель стороны А67.6Не требуется
Локальная модель стороны Б70.1Требуется
Ансамбль двух моделей (стэкинг)71.3Требуется
Guardora VFL (GBDT)≈ 81.3Не требуется

Для расчёта локальной модели стороны Б в рамках тестового сценария использовалась разметка.

Ключевой результат: после оптимизации гиперпараметров VFL-модель достигла качества, сопоставимого с ансамблем двух моделей (стэкингом), и превзошла локальные модели каждой из сторон. Разметка не передавалась между участниками.

Таким образом, в моделируемом сценарии клиенты вендора — банки — получают модель уровня ансамбля и не передают разметку.

Скорость обучения и инференса федеративной модели сопоставима со скоростью обучения и инференса стандартной модели скоринга:

  • Обучение модели GBDT без шифрования на 300 000 записях занимает менее 9 минут.
  • Обучение градиентного бустинга с шифрованием на 50 000 записях составляет около 1,4 часа.
  • Скорость применения модели (инференс) оптимизирована: 650 запросов в секунду при многопоточной реализации (0,008 сек на запрос)

Детальные результаты экспериментов

В таблице приведены результаты ROC_AUC федеративно обученной модели для разного количества строк (сэмплов) данных и применяемого метода обучения — градиентного бустинга.

СэмплШифрованиеROC AUCВремя
110K-76.7236.5s
250K-79.151.5 m
3100K-79.062.9 m
4200K-79.775.9m
5300K-78.828.9m
610K+76.3238m
750K+78.781.4h
8400K+81.3013h

*Результаты достигнуты в ходе экспериментов с изменением гиперпараметров модели

Ключевые выводы

Качество VFL-модели сопоставимо с ансамблем двух моделей (стэкингом) и превосходит качество локальных моделей каждой стороны, при этом разметка не передаётся между участниками обучения.

Федеративное обучение использует данные обеих сторон для построения единой модели, не нарушая требований конфиденциальности.

Скорость обучения без шифрования признана высокой, с шифрованием — приемлемой для промышленного применения.

Решение прошло полноценное тестирование в контуре крупной технологической компании на реальных данных.