Как предложить лучший полис, ничего не зная о клиенте лично?
Задолго до появления SaaS, «абонементов-индульгенций» в фитнес-клубы и широкого распространения бизнес-моделей, основанных на сложном проценте, придумали страхование.
Страховка, как говорилось в одной рекламе, — это вещь, которую лучше иметь и не нуждаться в ней, чем нуждаться и не иметь.
Коротко и цинично суть страхового бизнеса заключается в том, чтобы, предсказывая риски, собирать больше денег в виде премий, чем выплачивать в виде возмещений. Это не отрицает полезности услуг страхования в отдельно взятых случаях.
Чем точнее прогнозы, тем более выгодные условия можно предложить клиентам и минимизировать свои риски. То есть прибыль страховых компаний зависит от точности предсказаний. Ну а где предсказания, там и модели машинного обучения, которым для точности нужно больше данных.
В том числе тех данных, которые каждый отдельный человек, возможно, предпочёл бы держать в тайне по разным причинам, например:
- история болезни (анализы на токсоплазмоз и склонность к неоправданному риску),
- увлечения (статистика по прыжкам с парашютом и аренда снаряжения за последний год),
- поездки (история мест посещения от традиционных курортов до горячих точек).
У коммерческих клиентов тоже можно найти много интересного:
- реальные данные по опасным производствам и сопутствующей экологии,
- статистика по аварийности,
- текучка кадров.
Все эти данные помогают создавать более точные модели риска и делать максимально точные предсказания.
Собственно, на сохранение конфиденциальности данных направлены и разные государственные законы. Да и вообще кажется, что с момента появления такого понятия, как персональные данные, их список только пополняется.
Итак, вот какую задачу мы имеем:
- Страховым компаниям нужно делать лучший скоринг на основе данных их клиентов и данных, привлекаемых из внешних источников.
- Персональные, конфиденциальные или чувствительные данные ограничены в свободном обороте по разным причинам.
Вопросы:
- Как делать точные ML-модели, если данных не хватает?
- Как работать с чувствительными данными, коль уж они попали в руки страховщиков, без опасности санкций, утечек, атак, конкурентного шпионажа?
- Как привлекать данные партнёров, не нарушая закона?
- Как направлять имеющиеся данные на вычисление в облака третьих лиц и не нести риски потерь?
- В конце концов, как реально защитить модель (плод интеллектуального труда) и монетизировать её, не опасаясь инверсионных атак?
В Guardora мы встречались с рядом указанных далее кейсов, в которых нужна была защита данных и последующее обучение на них ML-алгоритмов для страхования.
- Предложение клиентам более персонализированных планов страхования.
- Обработка медицинских данных клиентов для улучшения точности оценки риска без компрометации личной информации.
- Интеграция данных из нескольких источников для создания комплексной модели скоринга, учитывающей как внутренние, так и внешние факторы.
- Предотвращение мошенничеств и злоупотреблений при подаче заявок на возмещение расходов.
- Работа с историей страховых случаев для создания модели прогнозирования вероятности наступления страхового события.
- Обмен данными между страховыми компаниями для улучшения моделей, не нарушая конфиденциальности клиентов.
- Обработка данных о поведении застрахованных (например, с помощью датчиков или приложений), при этом сохраняя их анонимность.
- Ценообразование.
Наиболее часто в контексте страхования и AI упоминаются следующие методы, протоколы и подходы Privacy Preserving Machine Learning:
Техника | Описание |
---|---|
Федеративное обучение | Позволяет обучать распределенную модель без передачи данных. Данные не покидают контур клиента. |
Гомоморфное шифрование | Обучение модели происходит на зашифрованных данных без их расшифрования. Данные все время находятся под надёжной криптографической защитой. |
Безопасные многосторонние вычисления | Позволяют участникам совместно обучать модель без раскрытия данных друг другу. Данные остаются в безопасности, так как ни один из участников не имеет доступа к данным других. |
Дифференциальная приватность | Данные используются в обучении модели с добавлением шума, что препятствует последующей идентификации отдельных записей. |
Если всё так ясно, то в чём же сложности с внедрением?
Есть ряд проблем на пути широкого применения этих технологий:
- Недостаток квалифицированных специалистов и широкой известности таких технологий.
- Сложность интеграции новых методов в существующие инфраструктуры и процессы.
- Высокие затраты на внедрение и поддержку технологий защиты данных.
- Проблемы с масштабируемостью: технологии могут требовать значительных вычислительных ресурсов при увеличении объёмов данных.
- Неопределенность регуляторных требований в разных юрисдикциях, что усложняет соблюдение норм.
- Отсутствие универсальных стандартов и практик в области защиты данных, что приводит к разрозненности решений.
Присоединяйтесь к нашему сообществу в Discord, чтобы обсудить больше конкретных кейсов из области страхования, комбинирование разных методов и протоколов повышения конфиденциальности в машинном обучении, а также познакомиться с энтузиастами Privacy Preserving Machine Learning со всего мира.