Вертикальное федеративное обучение моделей кредитного скоринга без компрометации разметки
Индустрия:
Банковский сектор, финансовые сервисы, скоринговые продукты
Технология:
Вертикальное федеративное обучение (VFL)
Тип данных:
Табличные (структурированные) данные
ML-модели:
Градиентный бустинг (GBDT)
ML-задача:
Кредитный скоринг
Продукт:
Guardora VFL
Компания-вендор в сфере аналитических продуктов и предиктивной аналитики, которая предоставляет услуги кредитного скоринга коммерческим банкам.
Вендор располагает массивом данных о пользователях и на их основе строит модели оценки кредитоспособности для финансовых организаций.
Клиенты вендора используют эти модели для принятия кредитных решений, управления рисками и противодействия мошенничеству.
Высокие требования к соблюдению законодательства о защите персональных данных
Потребность в обогащении моделей внешними источниками данных без компрометации конфиденциальности
Использование предиктивной аналитики для кредитного скоринга и оценки рисков
Вендор аналитических продуктов предоставляет услуги кредитного скоринга коммерческим банкам. В текущем процессе для построения совместной модели используется метод ансамблирования (стэкинг): каждая сторона обучает собственную модель на своих данных, после чего результаты обеих моделей объединяются в итоговую оценку.
Для обучения модели на стороне вендора необходимо передать разметку (целевую переменную) от банка в открытом виде. Разметка — это конфиденциальная информация банка, содержащая исторические данные о кредитоспособности клиентов.
Передача разметки требует согласования между сторонами и соблюдения внутренних процедур информационной безопасности и комплаенса.
Основной вопрос вендора: могут ли разные компании построить одну ML модель, не раскрывая данные друг другу, чтобы в итоговой модели были использованы дата-сеты всех сторон, а качество модели было лучше, чем качество отдельных локальных моделей?
Цель тестирования: сопоставить качество модели, обученной методом вертикального федеративного обучения (VFL), с качеством локальных моделей каждой из сторон и с качеством ансамбля (стэкинга) двух моделей — при условии, что в рамках VFL разметка не передаётся между сторонами.
Активная сторона (банк): располагает разметкой (целевой переменной — бинарным признаком кредитоспособности 0/1), идентификаторами клиентов и частью признаков.
Пассивная сторона (вендор): располагает ~200 признаками по тем же клиентам, но не имеет разметки.
Тестирование проводилось с использованием модели градиентного бустинга на решающих деревьях (GBDT) (модель из 100 деревьев глубины не более 6) — основная модель для работы с табличными данными.
Защита данных обеспечена в рамках двух режимов безопасности:
В таблице ниже представлены результаты тестирования:
| Подход | ROC_AUC | Передача разметки |
|---|---|---|
| Локальная модель стороны А | 67.6 | Не требуется |
| Локальная модель стороны Б | 70.1 | Требуется |
| Ансамбль двух моделей (стэкинг) | 71.3 | Требуется |
| Guardora VFL (GBDT) | ≈ 81.3 | Не требуется |
Для расчёта локальной модели стороны Б в рамках тестового сценария использовалась разметка.

Ключевой результат: после оптимизации гиперпараметров VFL-модель достигла качества, которое превосходит ансамбль двух моделей (стэкинг), и значительно опережает локальные модели каждой из сторон. Разметка не передавалась между участниками.
Таким образом, в моделируемом сценарии клиенты вендора (банки) получают модель выше уровня ансамбля и не передают разметку.
Скорость обучения и инференса федеративной модели сопоставима со скоростью обучения и инференса стандартной модели скоринга:
В таблице приведены результаты ROC_AUC федеративно обученной модели для разного количества строк (сэмплов) данных и применяемого метода обучения — градиентного бустинга.
| № | Сэмпл | Шифрование | ROC AUC | Время |
|---|---|---|---|---|
| 1 | 10K | - | 76.72 | 36.5s |
| 2 | 50K | - | 79.15 | 1.5 m |
| 3 | 100K | - | 79.06 | 2.9 m |
| 4 | 200K | - | 79.77 | 5.9m |
| 5 | 300K | - | 78.82 | 8.9m |
| 6 | 10K | + | 76.32 | 38m |
| 7 | 50K | + | 78.78 | 1.4h |
| 8 | 400K | + | 81.30 | 13h |
*Результаты достигнуты в ходе экспериментов с изменением гиперпараметров модели
В описанном кейсе кредитного скоринга на табличных данных с GBDT (100 деревьев, максимальная глубина 6) Guardora VFL достиг ROC AUC ≈ 81.3. Это превысило качество ансамбля (стэкинга) двух отдельно обученных моделей (71.3), качество локальной модели банка (70.1) и локальной модели вендора (67.6). Также ансамбль (стэкинг) требует передачи разметки между сторонами, а Guardora VFL — нет.
Федеративное обучение использует данные обеих сторон для построения единой модели, не нарушая требований конфиденциальности.
Скорость обучения без шифрования признана высокой, с шифрованием — приемлемой для промышленного применения.
Решение прошло полноценное тестирование в контуре крупной технологической компании на реальных данных.