Вертикальное федеративное обучение моделей кредитного скоринга без компрометации разметки
Индустрия:
Банковский сектор, финансовые сервисы, скоринговые продукты
Технология:
Вертикальное федеративное обучение (VFL)
Тип данных:
Табличные (структурированные) данные
ML-модели:
Градиентный бустинг (GBDT)
ML-задача:
Кредитный скоринг
Продукт:
Guardora VFL
Компания-вендор в сфере аналитических продуктов и предиктивной аналитики, которая предоставляет услуги кредитного скоринга коммерческим банкам.
Вендор располагает массивом данных о пользователях и на их основе строит модели оценки кредитоспособности для финансовых организаций.
Клиенты вендора используют эти модели для принятия кредитных решений, управления рисками и противодействия мошенничеству.
Высокие требования к соблюдению законодательства о защите персональных данных
Потребность в обогащении моделей внешними источниками данных без компрометации конфиденциальности
Использование предиктивной аналитики для кредитного скоринга и оценки рисков
Вендор аналитических продуктов предоставляет услуги кредитного скоринга коммерческим банкам. В текущем процессе для построения совместной модели используется метод ансамблирования (стэкинг): каждая сторона обучает собственную модель на своих данных, после чего результаты обеих моделей объединяются в итоговую оценку.
Для обучения модели на стороне вендора необходимо передать разметку (целевую переменную) от банка в открытом виде. Разметка — это конфиденциальная информация банка, содержащая исторические данные о кредитоспособности клиентов.
Передача разметки требует согласования между сторонами и соблюдения внутренних процедур информационной безопасности и комплаенса.
Основной вопрос вендора: могут ли разные компании построить одну ML модель, не раскрывая данные друг другу, чтобы в итоговой модели были использованы дата-сеты всех сторон, а качество модели было лучше, чем качество отдельных локальных моделей?
Цель тестирования: сопоставить качество модели, обученной методом вертикального федеративного обучения (VFL), с качеством локальных моделей каждой из сторон и с качеством ансамбля (стэкинга) двух моделей — при условии, что в рамках VFL разметка не передаётся между сторонами.
Активная сторона (банк): располагает разметкой (целевой переменной — бинарным признаком кредитоспособности 0/1), идентификаторами клиентов и частью признаков.
Пассивная сторона (вендор): располагает ~200 признаками по тем же клиентам, но не имеет разметки.
Тестирование проводилось с использованием модели градиентного бустинга на решающих деревьях (GBDT) (модель из 100 деревьев глубины не более 6) — основная модель для работы с табличными данными.
Защита данных обеспечена в рамках двух режимов безопасности:
В таблице ниже представлены результаты тестирования:
| Подход | ROC_AUC | Передача разметки |
|---|---|---|
| Локальная модель стороны А | 67.6 | Не требуется |
| Локальная модель стороны Б | 70.1 | Требуется |
| Ансамбль двух моделей (стэкинг) | 71.3 | Требуется |
| Guardora VFL (GBDT) | ≈ 81.3 | Не требуется |
Для расчёта локальной модели стороны Б в рамках тестового сценария использовалась разметка.

Ключевой результат: после оптимизации гиперпараметров VFL-модель достигла качества, сопоставимого с ансамблем двух моделей (стэкингом), и превзошла локальные модели каждой из сторон. Разметка не передавалась между участниками.
Таким образом, в моделируемом сценарии клиенты вендора — банки — получают модель уровня ансамбля и не передают разметку.
Скорость обучения и инференса федеративной модели сопоставима со скоростью обучения и инференса стандартной модели скоринга:
В таблице приведены результаты ROC_AUC федеративно обученной модели для разного количества строк (сэмплов) данных и применяемого метода обучения — градиентного бустинга.
| № | Сэмпл | Шифрование | ROC AUC | Время |
|---|---|---|---|---|
| 1 | 10K | - | 76.72 | 36.5s |
| 2 | 50K | - | 79.15 | 1.5 m |
| 3 | 100K | - | 79.06 | 2.9 m |
| 4 | 200K | - | 79.77 | 5.9m |
| 5 | 300K | - | 78.82 | 8.9m |
| 6 | 10K | + | 76.32 | 38m |
| 7 | 50K | + | 78.78 | 1.4h |
| 8 | 400K | + | 81.30 | 13h |
*Результаты достигнуты в ходе экспериментов с изменением гиперпараметров модели
Качество VFL-модели сопоставимо с ансамблем двух моделей (стэкингом) и превосходит качество локальных моделей каждой стороны, при этом разметка не передаётся между участниками обучения.
Федеративное обучение использует данные обеих сторон для построения единой модели, не нарушая требований конфиденциальности.
Скорость обучения без шифрования признана высокой, с шифрованием — приемлемой для промышленного применения.
Решение прошло полноценное тестирование в контуре крупной технологической компании на реальных данных.