FL Гид

Кредитный скоринг

Вертикальное федеративное обучение моделей кредитного скоринга без компрометации разметки

Индустрия:

Банковский сектор, финансовые сервисы, скоринговые продукты

Технология:

Вертикальное федеративное обучение (VFL)

Тип данных:

Табличные (структурированные) данные

ML-модели:

Градиентный бустинг (GBDT)

ML-задача:

Кредитный скоринг

Продукт:

Guardora VFL

Портрет заказчика

Компания-вендор в сфере аналитических продуктов и предиктивной аналитики, которая предоставляет услуги кредитного скоринга коммерческим банкам.

Вендор располагает массивом данных о пользователях и на их основе строит модели оценки кредитоспособности для финансовых организаций.

Клиенты вендора используют эти модели для принятия кредитных решений, управления рисками и противодействия мошенничеству.

Характеристики заказчика:
  • Высокие требования к соблюдению законодательства о защите персональных данных

  • Потребность в обогащении моделей внешними источниками данных без компрометации конфиденциальности

  • Использование предиктивной аналитики для кредитного скоринга и оценки рисков

Задача

Вендор аналитических продуктов предоставляет услуги кредитного скоринга коммерческим банкам. В текущем процессе для построения совместной модели используется метод ансамблирования (стэкинг): каждая сторона обучает собственную модель на своих данных, после чего результаты обеих моделей объединяются в итоговую оценку.

Для обучения модели на стороне вендора необходимо передать разметку (целевую переменную) от банка в открытом виде. Разметка — это конфиденциальная информация банка, содержащая исторические данные о кредитоспособности клиентов.

Передача разметки требует согласования между сторонами и соблюдения внутренних процедур информационной безопасности и комплаенса.

Основной вопрос вендора: могут ли разные компании построить одну ML модель, не раскрывая данные друг другу, чтобы в итоговой модели были использованы дата-сеты всех сторон, а качество модели было лучше, чем качество отдельных локальных моделей?

Ключевые проблемы:

  • Конфиденциальность разметки: банк не готов передавать таргет внешнему партнёру.
  • Децентрализация данных: признаки распределены между двумя сторонами.
  • Регуляторные ограничения: передача данных ограничена законодательством.

Цель тестирования: сопоставить качество модели, обученной методом вертикального федеративного обучения (VFL), с качеством локальных моделей каждой из сторон и с качеством ансамбля (стэкинга) двух моделей — при условии, что в рамках VFL разметка не передаётся между сторонами.

Решение

Для решения задачи была развёрнута платформа Guardora VFL

Решение для вертикального федеративного обучения, в рамках которого две стороны совместно обучают ML-модель без передачи исходных данных и разметки.

Участники и распределение данных

Тестирование проводилось с имитацией двух сторон:

01/

Активная сторона (банк): располагает разметкой (целевой переменной — бинарным признаком кредитоспособности 0/1), идентификаторами
клиентов и частью признаков.

02/

Пассивная сторона (вендор): располагает ~200 признаками по тем же клиентам, но не имеет разметки.

Модели и защита данных

Тестирование проводилось с использованием модели градиентного бустинга на решающих деревьях (GBDT) (модель из 100 деревьев глубины не более 6) — основная модель для работы с табличными данными.

Защита данных обеспечена в рамках двух режимов безопасности:

  • Гомоморфное шифрование градиентов (алгоритм Пайе) — максимальный уровень защиты: исходные данные и градиенты не покидают контур в открытом виде.
  • Режим без шифрования — исходные данные не передаются, однако градиенты передаются в открытом виде. Дает высокую скорость обучения.

Результаты

Сравнение подходов

В таблице ниже представлены результаты тестирования:

ПодходROC_AUCПередача разметки
Локальная модель стороны А67.6Не требуется
Локальная модель стороны Б70.1Требуется
Ансамбль двух моделей (стэкинг)71.3Требуется
Guardora VFL (GBDT)≈ 81.3Не требуется

Для расчёта локальной модели стороны Б в рамках тестового сценария использовалась разметка.

Ключевой результат: после оптимизации гиперпараметров VFL-модель достигла качества, которое превосходит ансамбль двух моделей (стэкинг), и значительно опережает локальные модели каждой из сторон. Разметка не передавалась между участниками.

Таким образом, в моделируемом сценарии клиенты вендора (банки) получают модель выше уровня ансамбля и не передают разметку.

Скорость обучения и инференса федеративной модели сопоставима со скоростью обучения и инференса стандартной модели скоринга:

  • Обучение модели GBDT без шифрования на 300 000 записях занимает менее 9 минут.
  • Обучение градиентного бустинга с шифрованием на 50 000 записях составляет около 1,4 часа.
  • Скорость применения модели (инференс) оптимизирована: 650 запросов в секунду при многопоточной реализации (0,008 сек на запрос)

Детальные результаты экспериментов

В таблице приведены результаты ROC_AUC федеративно обученной модели для разного количества строк (сэмплов) данных и применяемого метода обучения — градиентного бустинга.

СэмплШифрованиеROC AUCВремя
110K-76.7236.5s
250K-79.151.5 m
3100K-79.062.9 m
4200K-79.775.9m
5300K-78.828.9m
610K+76.3238m
750K+78.781.4h
8400K+81.3013h

*Результаты достигнуты в ходе экспериментов с изменением гиперпараметров модели

Ключевые выводы

В описанном кейсе кредитного скоринга на табличных данных с GBDT (100 деревьев, максимальная глубина 6) Guardora VFL достиг ROC AUC ≈ 81.3. Это превысило качество ансамбля (стэкинга) двух отдельно обученных моделей (71.3), качество локальной модели банка (70.1) и локальной модели вендора (67.6). Также ансамбль (стэкинг) требует передачи разметки между сторонами, а Guardora VFL — нет.

Федеративное обучение использует данные обеих сторон для построения единой модели, не нарушая требований конфиденциальности.

Скорость обучения без шифрования признана высокой, с шифрованием — приемлемой для промышленного применения.

Решение прошло полноценное тестирование в контуре крупной технологической компании на реальных данных.