И не с того, что штрафы только GDPR составляют более 1 млрд долларов в год [2]. А, например, с того, что банк находит в даркнете объявления о продаже личных кабинетов своих пользователей.
Это лишь один из сценариев, указывающих на то, что что-то пошло не так гораздо раньше.
Мулы, дропы, отмывание в сетях для сокрытия потока денег между банками, финансирование терроризма и другой нелегальной деятельности ― вторично.
Первично то, что вся система и выстроенный в банке процесс KYC позволяет пиратам открывать счета дешевле, чем у конкурентов. Это происходит по разным причинам: инсайдеры, политика банка, уязвимости в процессах и иное. А от открытия счетов уже отталкиваются и AML кейсы + транзит и обнал.
Однако тех, кто действует мудро, использует Defensive Security и продвинутые системы мониторинга на основе AI, меньшинство.
Возможно, по объективным причинам? Давайте разбираться.
Здесь мы рассмотрим, с какими сложностями сталкиваются банки в этом контексте, и в какой части им может помочь федеративное машинное обучение.
В Guardora мы встречались со следующими кейсами, для которых было актуальным использование методов Privacy Preserving Machine Learning в BFSI (Banking, Financial Services and Insurance)
- Предупреждение финансовых преступлений.
- Мониторинг и обнаружение случаев мошенничества в реальном времени (например, повышение уровня обнаружения преступных сетей за счет сокращения ложных срабатываний).
- Расследование финансовых преступлений и отслеживание денежного следа преступной деятельности всех видов.
- Скоринг клиентов с точки зрения разных рисков (кредитные, санкционные, правовые, репутационные, присутствия в чёрных списках и другие).
- Проверка реквизитов транзакций по спискам с категорией высокого риска в разных финансовых учреждениях, без раскрытия каких-либо данных о пользователях или самих транзакциях.
- Выявление подозрительных транзакций (обнаружения аномалий) в режиме реального времени.
Все эти кейсы усугубляются высокими скоростями проведения транзакций, развитием новых технологий, доступных правонарушителям, отсутствием виртуальных границ между странами и, самое главное, нехваткой синхронизации и самостоятельными интересами всех легальных участников этих процессов.
Количество собравшихся обратно пропорционально полезности собрания или нет?
Когда дело доходит до совмещения данных для обучения общих ML-моделей, заинтересованных сторон становится больше, чем пара-тройка банков.
В контуре контроля банка находятся:
- Физические лица (клиенты банков): спектр их настроений варьируется от полностью индифферентного фатализма до крайне консервативной конспирологии. В среднем все хотят, чтобы банки делали хорошо (защищали данные от плохишей) и не делали плохо (не подвергали их личные конфиденциальные данные рискам).
- Юридические лица (клиенты банков): опасаются, что их данные могут попасть к конкурентам, и не понимают, в чём их выгода.
- Chief Information Security Officers: считают, что то, что ты не можешь уничтожить, не находится под твоим контролем, и предпочитают данными не делиться.
- Heads of KYC/KYB: должны соблюдать вечный баланс между проходимостью их процессов и притоком клиентов.
- Chief AML Officers: считают, что любое совместное использование данных должно быть строго регламентировано и соответствовать международным стандартам. Главный страх ― утечка данных, которая может поставить под угрозу не только клиентов, но и сам банк, открыв его для штрафов и регуляторных санкций.
- Chief Compliance Officers: следят за соблюдением всех юридических и регуляторных требований. Они подчеркивают важность соблюдения законов о защите данных и конфиденциальности в разных юрисдикциях. Их основная забота ― как совместное использование данных скажется на репутации банка и его способности следовать правилам и предписаниям, избегая штрафов и судебных разбирательств.
В слепой зоне банка находятся:
- Финансовые учреждения и сервисы разных весовых категорий: одни не могут объяснить, зачем пускать их за стол с большими игроками, другие не могут понять в чём их выгода от участия мелких датасетов. Как посчитать ценность данных с деталями перевода от платежной сети vs данных счетов от банков, к всеобщей конечной выгоде?
- Антимонопольные службы: могут и не отличить сотрудничество нескольких банков, решивших совместно обучить ML-модели, от картельного сговора.
- Правоохранительные органы: не хотят, чтобы ИИ спугнул правонарушителей (следствие по которым порой ведут много месяцев) раньше времени, хотят получить бэкдоры во все решения.
- Финансовые регуляторы и их правила: варьируются от страны к стране, консервативно накладывают запреты и дополнительные требования к финансовым учреждениям. Самый распространённый пример ― запрет на обработку данных за пределами страны или на использование облачных сервисов.
- Регуляторы GDPR и EDPB (Европа), CCPA (Калифорния), PIPEDA (Канада), LGPD (Бразилия) и другие: устанавливают строгие требования к защите данных и конфиденциальности, что усложняет трансграничное объединение и обработку данных. Их требования к информированному согласию, праву на забвение и прозрачности обработки данных вынуждают банки тщательно подходить к любым инициативам по обмену данными и учитывать национальные и международные нормы, чтобы избежать серьезных штрафов и репутационных рисков.
Как видно, каждый справедливо преследует свои интересы, но есть у них и что-то общее. Камнем преткновения для всех вышеперечисленных игроков является передача данных.
Но как, не передавая данные, пользоваться всей мощью современных достижений искусственного интеллекта, создавая хитрые модели, способные выявлять самые тонкие аномалии в транзакциях и дерзкие схемы злоумышленников?
Возможно, сделать так, чтобы не данные шли к вычислениям, а вычисления шли к данным. Именно так и работает федеративное обучение.
Федеративное обучение (Federated Learning, FL) ― парадигма машинного обучения, при которой становится возможным обучение глобальной модели нескольких финансовых учреждений без совместного использования локальных данных.
FL позволяет проводить обучение на распределенных наборах данных без обмена исходными данными между участвующими сторонами.
Если кратко, федеративное обучение позволяет организациям:
- Обучать модели локально и затем объединять их, не передавая сами данные.
- Раскрыть преимущества обмена данными без их перемещения за пределы организации или чьего-либо персонального устройства.
- Улучшить безопасность, устраняя необходимость в централизованном хранилище данных, привлекательном для хакеров.
- Использовать эту технику для децентрализованного обучения внутри одной организации или между разными организациями.
- Создать более сильную модель, которая эффективнее, чем обученная на ограниченных локальных данных.
Вводные технические статьи о федеративном обучении и других подходах к машинному обучению с сохранением приватности вы можете найти в разделе Технологии нашего сайта.
Для купирования недостатков федеративного обучения совместно с ним могут использоваться такие техники и протоколы как:
- Полное гомоморфное шифрование (Fully Homomorphic Encryption)
- Безопасные многосторонние вычисления (Secure Multi-Party Computation)
- Синтетические данные (Synthetic Data)
- Дифференциальная конфиденциальность (Differential Privacy)
- Доказательство нулевого знания (Zero-Knowledge Proofs)
Говорят, что зло ― это паразит добра, и чем больше добрых технологий мы создаем, тем больше будет и возможностей использовать их не по назначению. Кроме этого, широкое внедрение федеративного обучения может столкнуться со следующими вызовами, которые предстоит решить:
- Скорость обработки данных.
- Вычислительные затраты.
- Нормативно-правовая база.
- Стандартизация и сертификация.
- Противодействие новым технологиям атак.
- Масштабирование.
- Разработка программного обеспечения Plug&Play.
Значит ли это, что мы должны отказаться от практического применения и придерживаться только теории?
Возможно, внедрение FL целесообразно начать с кейсов, не связанных с финансовыми преступлениями, а количество участников сократить до юридических лиц, входящих в одну группу компаний, например:
- Прогнозирование сценариев по результатам инвестиций.
- Анализ транзакционной активности клиентов банка для более результативного таргетирования банковских продуктов.
- Подтверждение владения финансовыми активами.
- Понимание того, как клиенты взаимодействуют с продуктами в целом.
- Проверка и подтверждение одинаковости паролей и пин-кодов клиентов разных банковских приложений.
- Подтверждение репрезентативности наборов данных разных участников при проверке гипотез о потенциале сотрудничества в области предиктивного машинного обучения.
- Разработка новых продуктов частного банковского обслуживания с проверяемыми правами на забвение или одноразовое использование конфиденциальных данных.
- Обмен информацией с подразделениями, предлагающими услуги управления дебиторской задолженностью.
- Определение загруженности очередей в офисах банков по геолокационным данным посетителей-клиентов.
Вечная битва брони и снаряда продолжается
Если злоумышленники свободно совмещают датасеты из разных источников, чтобы проворачивать разные аферы в бизнесе, заниматься воровством личности, маскировать преступные доходы, избегать санкций и финансировать другую незаконную деятельность, значит, защита тоже должна пользоваться всеми благами объединённого машинного обучения на базе общих датасетов.
Если эта тема интересует вас как пользователя, разработчика или энтузиаста технологий повышения конфиденциальности, присоединяйтесь к нашему сообществу Discord и участвуйте в обсуждении этих насущных вопросов.
Ссылки