Кейсы

Вертикальное федеративное обучение моделей кредитного скоринга

Кредитный скоринг

Name: Бенчмарки вертикального федеративного обучения кредитного скоринга (кейс Guardora VFL)
Creator: Guardora
License: Сводка проприетарного кейса; исходные транзакционные данные остаются у участников под privacy-preserving агрегацией

Вертикальное федеративное обучение моделей кредитного скоринга без компрометации разметки

Индустрия:

Банковский сектор, финансовые сервисы, скоринговые продукты

Технология:

Вертикальное федеративное обучение (VFL)

Тип данных:

Табличные (структурированные) данные

ML-модели:

Градиентный бустинг (GBDT)

ML-задача:

Кредитный скоринг

Продукт:

Guardora VFL

Портрет заказчика

Компания-вендор в сфере аналитических продуктов и предиктивной аналитики, которая предоставляет услуги кредитного скоринга коммерческим банкам.

Вендор располагает массивом данных о пользователях и на их основе строит модели оценки кредитоспособности для финансовых организаций.

Клиенты вендора используют эти модели для принятия кредитных решений, управления рисками и противодействия мошенничеству.

Характеристики заказчика:

Высокие требования к соблюдению законодательства о защите персональных данных
Потребность в обогащении моделей внешними источниками данных без компрометации конфиденциальности
Использование предиктивной аналитики для кредитного скоринга и оценки рисков

Задача

Вендор аналитических продуктов предоставляет услуги кредитного скоринга коммерческим банкам. В текущем процессе для построения совместной модели используется метод ансамблирования (стэкинг): каждая сторона обучает собственную модель на своих данных, после чего результаты обеих моделей объединяются в итоговую оценку.

Для обучения модели на стороне вендора необходимо передать разметку (целевую переменную) от банка в открытом виде. Разметка — это конфиденциальная информация банка, содержащая исторические данные о кредитоспособности клиентов.

Передача разметки требует согласования между сторонами и соблюдения внутренних процедур информационной безопасности и комплаенса.

Основной вопрос вендора: могут ли разные компании построить одну ML модель, не раскрывая данные друг другу, чтобы в итоговой модели были использованы дата-сеты всех сторон, а качество модели было лучше, чем качество отдельных локальных моделей?

Ключевые проблемы:

Конфиденциальность разметки: банк не готов передавать таргет внешнему партнёру.
Децентрализация данных: признаки распределены между двумя сторонами.
Регуляторные ограничения: передача данных ограничена законодательством.

Цель тестирования: сопоставить качество модели, обученной методом вертикального федеративного обучения (VFL), с качеством локальных моделей каждой из сторон и с качеством ансамбля (стэкинга) двух моделей — при условии, что в рамках VFL разметка не передаётся между сторонами.

Решение

Для решения задачи была развёрнута платформа Guardora VFL

Решение для вертикального федеративного обучения, в рамках которого две стороны совместно обучают ML-модель без передачи исходных данных и разметки.

Участники и распределение данных

Тестирование проводилось с имитацией двух сторон:

01/

Активная сторона (банк): располагает разметкой (целевой переменной — бинарным признаком кредитоспособности 0/1), идентификаторами клиентов и частью признаков.

02/

Пассивная сторона (вендор): располагает ~200 признаками по тем же клиентам, но не имеет разметки.

Модели и защита данных

Тестирование проводилось с использованием модели градиентного бустинга на решающих деревьях (GBDT) (модель из 100 деревьев глубины не более 6) — основная модель для работы с табличными данными.

Защита данных обеспечена в рамках двух режимов безопасности:

Гомоморфное шифрование градиентов (алгоритм Пайе) — максимальный уровень защиты: исходные данные и градиенты не покидают контур в открытом виде.
Режим без шифрования — исходные данные не передаются, однако градиенты передаются в открытом виде. Дает высокую скорость обучения.

Результаты

Сравнение подходов

В таблице ниже представлены результаты тестирования:

Подход	ROC_AUC	Передача разметки
Локальная модель стороны А	67.6	Не требуется
Локальная модель стороны Б	70.1	Требуется
Ансамбль двух моделей (стэкинг)	71.3	Требуется
Guardora VFL (GBDT)	≈ 81.3	Не требуется

Для расчёта локальной модели стороны Б в рамках тестового сценария использовалась разметка.

Ключевой результат: после оптимизации гиперпараметров VFL-модель достигла качества, которое превосходит ансамбль двух моделей (стэкинг), и значительно опережает локальные модели каждой из сторон. Разметка не передавалась между участниками.

Таким образом, в моделируемом сценарии клиенты вендора (банки) получают модель выше уровня ансамбля и не передают разметку.

Скорость обучения и инференса федеративной модели сопоставима со скоростью обучения и инференса стандартной модели скоринга:

Обучение модели GBDT без шифрования на 300 000 записях занимает менее 9 минут.
Обучение градиентного бустинга с шифрованием на 50 000 записях составляет около 1,4 часа.
Скорость применения модели (инференс) оптимизирована: 650 запросов в секунду при многопоточной реализации (0,008 сек на запрос)

Детальные результаты экспериментов

В таблице приведены результаты ROC_AUC федеративно обученной модели для разного количества строк (сэмплов) данных и применяемого метода обучения — градиентного бустинга.

№	Сэмпл	Шифрование	ROC AUC	Время
1	10K	-	76.72	36.5s
2	50K	-	79.15	1.5 m
3	100K	-	79.06	2.9 m
4	200K	-	79.77	5.9m
5	300K	-	78.82	8.9m
6	10K	+	76.32	38m
7	50K	+	78.78	1.4h
8	400K	+	81.30	13h

*Результаты достигнуты в ходе экспериментов с изменением гиперпараметров модели

Ключевые выводы

В описанном кейсе кредитного скоринга на табличных данных с GBDT (100 деревьев, максимальная глубина 6) Guardora VFL достиг ROC AUC ≈ 81.3. Это превысило качество ансамбля (стэкинга) двух отдельно обученных моделей (71.3), качество локальной модели банка (70.1) и локальной модели вендора (67.6). Также ансамбль (стэкинг) требует передачи разметки между сторонами, а Guardora VFL — нет.

Федеративное обучение использует данные обеих сторон для построения единой модели, не нарушая требований конфиденциальности.

Скорость обучения без шифрования признана высокой, с шифрованием — приемлемой для промышленного применения.

Решение прошло полноценное тестирование в контуре крупной технологической компании на реальных данных.

Часто задаваемые вопросы

Что такое вертикальное федеративное обучение для кредитного скоринга?

Вертикальное Федеративное Обучение (VFL) для кредитного скоринга — это конфигурация, при которой две организации (обычно банк и вендор аналитических продуктов) совместно обучают ML-модель оценки кредитоспособности без передачи лежащих в основе клиентских данных или разметки. Банк (активная сторона) располагает разметкой кредитоспособности и идентификаторами клиентов плюс часть признаков. Вендор (пассивная сторона) располагает другим набором признаков по тем же клиентам (~200 признаков в этом кейсе). VFL использует криптографические протоколы и синхронизированное вычисление градиентов, чтобы каждая сторона вносила свои признаки в общую модель — но ни одна сторона не видит сырых данных другой, и разметка банка никогда не покидает его периметр. Результат: единая модель, обученная на объединённом признаковом пространстве, без утечки данных.

Как VFL решает проблему передачи разметки в кредитном скоринге?

В традиционном ансамбле-стэкинге (текущий продакшен-подход) вендор аналитики обучает собственную локальную модель на своих признаках — но банк должен передать вендору разметку кредитоспособности, чтобы вендор мог обучить свою модель. Разметка — это высококонфиденциальная информация банка, содержащая исторические данные кредитоспособности клиентов, и её передача требует юридических соглашений, compliance-проверок и постоянного аудита. VFL это полностью устраняет: вычисление градиентов происходит через безопасную синхронизацию между активной (банк, имеет разметку) и пассивной (вендор, имеет признаки) сторонами. Разметка банка остаётся внутри периметра банка; только зашифрованные градиенты текут между сторонами. Юридическое соглашение о передаче разметки не требуется.

Каков бенчмарк ROC-AUC — VFL vs стэкинг vs локальные модели?

Конкретные результаты из этого кейса, используя GBDT (100 деревьев, максимальная глубина 6) на табличных данных.
Локальная модель стороны А (только признаки банка): ROC-AUC 67.6 (передача разметки не нужна — банк обучает локально).
Локальная модель стороны Б (только признаки вендора): ROC-AUC 70.1 (требует передачи разметки от банка).
Стэкинг-ансамбль А + Б: ROC-AUC 71.3 (требует передачи разметки для Б).
Guardora VFL (GBDT на объединённом признаковом пространстве): ROC-AUC ≈81.3 (без передачи разметки). VFL превосходит продакшен-метод стэкинга на 10 процентных пунктов И снимает операционно-юридическое бремя передачи разметки. Это сильнейший коммерческий аргумент в пользу VFL над стэкингом.

Как скорость обучения VFL для скоринга сравнивается со стандартными моделями?

Скорости обучения и инференса промышленного уровня.
Без шифрования: GBDT-модель обучается на 300 000 записях менее 9 минут.
С Paillier-гомоморфным шифрованием (максимальная безопасность): 50 000 записей за ~1.4 часа.
Инференс: оптимизирован для продакшена — 650 запросов в секунду в многопоточной реализации, эквивалентно 0.008 секунды на запрос. Детальная таблица экспериментов показывает scaling: 10К сэмплов без шифрования = 36.5 секунд; 50К = 1.5 минуты; 200К = 5.9 минут; 400К с шифрованием = 13 часов. Для real-time кредитных решений latency инференса — связывающее ограничение, и 8ms полностью в пределах допустимого.

Как гомоморфное шифрование влияет на время обучения VFL?

Гомоморфное шифрование Пайе значительно увеличивает вычислительные затраты, но приемлемо для продакшена. Сравнение (50К сэмплов GBDT): без шифрования ~1.5 минуты; с Paillier ~1.4 часа. То есть примерно в 56 раз медленнее с шифрованием — это цена математических гарантий конфиденциальности. Стратегия смягчения: кейс использует два режима безопасности, выбираемых per training run.
1. Гомоморфное шифрование Пайе: максимальная защита, сырые данные и градиенты никогда не покидают периметр в открытом виде — используется для начальных продакшен-раундов обучения и compliance-критичных обновлений.
2. Режим без шифрования: сырые данные всё равно не передаются, но градиенты передаются в открытом виде — используется для быстрой итерации, тюнинга гиперпараметров и частых переобучений, где модель доверия это допускает.

Почему VFL лучше ансамбля-стэкинга для кредитного скоринга?

Здесь совмещаются две причины.
1. Качество: VFL достигает ROC-AUC 81.3 vs 71.3 у стэкинга — улучшение на 10 пунктов. Это происходит потому, что VFL обучает единую модель на объединённом признаковом пространстве (так что модель может изучать межсторонние взаимодействия признаков), в то время как стэкинг обучает две отдельные модели, чьи выходы смешиваются в конце (теряя межсторонние взаимодействия).
2. Операционная простота: стэкинг требует передачи разметки от банка к вендору — что означает юридические соглашения, аудит-обязательства, compliance-обзоры и регулярную повторную авторизацию. VFL это полностью устраняет. Вендор никогда не видит разметку. Для регулируемого банка операционная простота может быть важнее прироста точности.

Кто типичные активная и пассивная стороны в VFL-скоринге?

Активная сторона (банк): располагает разметкой (целевой переменной — бинарным признаком кредитоспособности 0/1), идентификаторами клиентов и частью признаков. Предоставляет supervision-сигнал для обучения. В продакшен-внедрениях активная сторона — обычно крупный коммерческий банк с глубокими историческими данными по кредитной производительности.
Пассивная сторона (вендор): располагает богатыми признаками по тем же клиентам, но без разметки — в этом кейсе ~200 признаков. Предоставляет ширину признаков. В продакшен-внедрениях пассивные стороны — обычно аналитические вендоры, бюро кредитных историй, телеком-провайдеры данных, e-commerce платформы или любая организация с богатыми поведенческими сигналами по потенциальным заёмщикам, но без прямой кредитной истории. VFL в принципе расширяется на N-стороннюю конфигурацию более чем 2 сторон.

Как этот кейс связан с другими FL-примитивами Guardora (HFL, FHE)?

Три продуктивно-развёрнутых PPML-примитива Guardora теперь имеют публично задокументированные кейсы.
Вертикальное FL (этот кейс): идеально, когда две стороны имеют разные признаки про одних и тех же клиентов — банк + вендор кредитного скоринга.
Горизонтальное FL (кейс антифрода): идеально, когда стороны имеют одинаковые признаки про разных клиентов/транзакции — банк + платежная система обнаружение мошенничества.
Полностью Гомоморфное Шифрование (кейс нефтегаза): идеально, когда несколько сторон объединяют похожие данные и требуется end-to-end шифрование — совместное обучение моделей нефтегазовых предприятий. Выбор правильного примитива — первый шаг любого вовлечения с Guardora — свяжитесь с нами для scoping-сессии для определения оптимальной конфигурации для вашего кейса.

Попробуйте сами!

Закажите звонок для вашего кейса

Заказать