Написать нам

Как это работает и другие часто задаваемые вопросы

Какую проблему решает ваш продукт?
Явным препятствием на пути развития ML-алгоритмов выступает нежелание или невозможность владельцев данных делиться ими с ML-разработчиками ввиду потенциальных угроз в виде утечек, кражи и нелегального использования данных. Вопрос конфиденциальности данных в искусственном интеллекте будет ключевым в ближайшее десятилетие.
Для кого ценен ваш продукт?
Для владельцев данных и ML-команд, обучающих модели на чувствительных данных, а также провайдеров облачных услуг и участников многосторонних вычислений.
Что вы понимаете под чувствительными данными?
Конфиденциальная, персональная и иная информация (интеллектуальная собственность, ноу-хау, секретные полевые данные), используемая при тренировке моделей машинного обучения, в том числе и сама модель как результат интеллектуального труда.
Какие подходы повышения приватности данных вы используете?
Мы используем сочетание трёх методов безопасного вычисления с двумя протоколами конфиденциальности.

Методы безопасного вычисления:
• Fully Homomorphic Encryption
• Functional Transformation
• Functional Encryption

Протоколы конфиденциальности:
• Federated Learning
• Secure Multi-Party Computation
На каких этапах пути данных ваш продукт предоставляет защиту?
Это зависит от выбранного подхода. Минимальный набор ― передача, машинное обучение моделей, проверка качества моделей. Максимальный - передача, хранение, машинное обучение моделей, проверка качества моделей, возврат результата.
С какими типами данных работает ваш продукт?
С любыми: тексты, числа, таблицы, временные ряды, изображения, аудио, видео, геолокации.
С какими ML-архитектурами работает ваш продукт?
Логистическая регрессия, деревья решений, нейронные сети, обобщенные линейные модели.
Как много времени нужно, чтобы взломать вашу защиту обычными средствами?
Время тотального перебора на несколько порядков превысит время существования Вселенной.
Почему вы не публикуете результаты испытаний на основе опенсорсных датасетов из сети?
Мы предлагаем веер подходов. Какие-то из них не ухудшают характеристик моделей и практически не влияют на время обучения модели, но результат модели возвращают в открытом виде. Иные могут значительно повлиять на время обучения и инференса, но при этом возвращают результат модели также в защищенном виде.

Выбор конкретного решения остается за клиентом. Тестировать все решения на открытых датасетах и стандартных архитектурах сетей малоинформативно, так как в любом случае все характеристики будут зависеть от архитектуры моделей клиента, уровня требуемой стойкости, характеристик входных данных и прочего.
Занимаетесь ли вы подготовкой, сбором и разметкой датасетов?
Подготовка (сбор и разметка) датасетов лежит на плечах владельца данных, желающего внедрить ML-решение. Мы же обеспечиваем безопасность чувствительных данных владельца при передаче готовых датасетов на внешние вычислительные ресурсы или третьей стороне.
Какое влияние имеет объём датасетов?
Объём датасетов имеет важное, но не решающее значение.
Чем вы лучше конкурентов?
Говоря о конкурентах, конечно, лучше сравнивать нас с конкретными компаниями. В целом, делая это можно поискать ответы на следующие вопросы:
а) Носят ли разработки компании практическую ценность, либо больше похожи на теоретические исследования?
б) Позволяют ли продукты компании работать с медиаконтентом без роста времени обработки и объёма данных?
в) Легко ли адаптировать решения компании для практического применения с построением реальных нейросетевых моделей? Возможно ли это для большинства архитектур нейронных сетей?
г) Если заявлен "open source", то действительно ли лицензия позволяет использовать решения компании в коммерческих продуктах?
д) Использует ли компания разные методы и протоколы, либо для всех кейсов предлагает решения, основанные на одном и том же подходе? Соблюдаются ли принципы гибкости, умелого комбинирования и неизбыточности?
е) Является ли защита, предлагаемая компанией, пригодной для машинного обучения? Может быть, то, что предлагает компания ― вовсе не шифрование, а подмена данных в документах? Либо дополнительное шифрование трафика, и данные будут расшифрованы перед машинными обучением? Или зашифрованные данные вовсе не будут использоваться при тренировке моделей?
Только зная ответы на все обозначенные вопросы, можно проводить сравнительный анализ нас и конкурента.
Чем вы отличаетесь от простого хеширования (обезличивания, деперсонализации, присвоения ID)?
Хеширование ― один из методов обезличивания персональных данных в текстовой информации, при этом эти данные не могут задействоваться в машинном обучении, а используются лишь как связующая сущность. Мы защищаем чувствительные данные, которые используются в машинном обучении.

Хеширование в классическом понимании ― это применение к абсолютно произвольным данным криптографической хеш-функции с целью получения хеш-значения ― строки фиксированной длины. Преобразование это однонаправленное, как мясорубка. В настоящий момент не известны подходы к возможности использования ее в ML. Она не обладает теми свойствами, которые нам необходимы, в отличие от предлагаемых нами методов защиты.

То есть если хешированные данные не пригодны для обучения ML-моделей, то, например, шифрование с использованием Fully Homomorphic Encryption позволяет работать с полностью защищенными данными на всех этапах (передача, обучение, хранение, проверка качества, возврат результата).
Нужна ли вашим методам дополнительная защита в виде доверенных сред выполнения (Trusted execution environment)?
Мы занимаемся разработкой методов защиты данных, способных работать вне зависимости от среды выполнения.
Зачем мне дополнительное шифрование между заказчиком и мной как обработчиком данных?
На тот случай, когда заказчик не хочет или не может передавать вам (разработчику) данные в открытом виде, когда данные относятся к персональной информации, например, изображение лица человека, сканы паспортов, ФИО в эпикризах и прочее; или вы как разработчик опасаетесь передавать данные во внешние вычислительные среды (облачные сервисы), ведь никто не даст гарантий, что из облачного сервиса не может произойти утечка чувствительных данных.
Зачем вы нам нужны, если всем крупным провайдерам облачных услуг и так запрещено хранить датасеты?
Утечка может происходить не во время хранения, а во время обработки.
Просто запрет на хранение ― не защита.
Какие операции поддерживаются в FHE ― линейные слои, функции активации, нейросетей или что-то другое?
Гомоморфное шифрование (FHE ― Fully Homomorphic Encryption) применимо для нейронных сетей и иных алгоритмов машинного обучения, представимых в виде композиции полиномиальных функций. Например, нейронная сеть, состоящая из слоев свёртки, полносвязных слоев, слоев average pooling, полиномиальных функций активации (или функций активации, аппроксимируемых полиномами) применима в связке с FHE; логистическая регрессия и линейный дискриминантный анализ Фишера ― пример иных алгоритмов машинного обучения, применимых совместно с FHE. Так же перспективным нам видится симбиоз FHE и недавно предложенной архитектуры НС, имеющей название KAN, в которой основой сети являются сплайны ― кусочно-полиномиальные функции, которые на разных отрезках задаются различными полиномами.
Как работает протокол FL?
Federated Learning (FL), или федеративное обучение, ― это совместное обучение нейронной сети (НС) несколькими владельцами данных, при этом каждый владелец данных проводит обучение общей для всех архитектуры НС на собственных доверенных ресурсах и на своих данных, интерактивно обмениваясь служебной информацией с некоторым общедоступным ресурсом с целью формирования единой НС.
Как работает протокол SMPC?
Secure Multi-Party Computation (SMPC), или протокол конфиденциального многостороннего вычисления, в машинном обучении ― специальный протокол взаимодействия нескольких сторон с целью совместного обучения ML-алгоритма несколькими владельцами данных, при котором стороны обмениваются производной от данных информацией, не позволяющей восстановить сами данные, но позволяющей осуществлять обучение ML-алгоритма. Обучение может проводиться как на ресурсах одной или нескольких (возможно, всех) участвующих в протоколе сторон, так и на внешних ресурсах, не принадлежащих ни одной из сторон.
Как новые зашифрованные данные встраиваются в существующие незашифрованные?
В этом случае возможны варианты в зависимости от используемого решения:
• если использовать наш Veils-подход, то на защищенных с помощью Veils данных можно обучить модель, которая будет применима и для открытых данных, если к ним препроцессингом применять то же самое Veils-преобразование;
• если говорить о других подходах в случае, когда уже есть решение для открытых данных и хочется его адаптировать для работы с защищенными данными, то это реализуемо для FHE;
• либо обучать два решения для защищенных и открытых данных по отдельности, а потом каким-то образом агрегировать их выходы.
Встроить же защищенные данные в открытые не получится, так как они из принципиально разных доменов числового представления.
Каковы параметры безопасности ваших решений с точки зрения невозможности восстановить исходные данные?
Наше ПО позволяет формировать разные уровни безопасности для разных конфиденциальных данных.
Вы использовали собственную реализацию гомоморфного шифрования? Или взяли одну из известных (MS)?
В настоящий момент используем доступные открытые реализации. Возможно, встанем перед вопросом собственной разработки в скором времени.
Удалось ли решить проблемы со скоростью гомоморфного шифрования? Это может стать серьезном ограничением для использования в продуктиве.
Скорость шифрования алгоритмами, обладающими гомоморфностью, действительно ниже широко известных алгоритмов шифрования. Но больший вклад вносит именно выполнение операций над зашифрованными данными. Поэтому, скорость может быть приемлема при невысокой сложности необходимых операций.
Насколько известно, гомоморфное шифрование поддерживает не все типы математических операций. Что-то делали в этом направлении?
Это насущное ограничение; те функции, которые невозможно представить в виде композиции допустимых операций или приемлемо аппроксимировать ими, не поддерживаются.
Можно ли зашифровать обучающую выборку так, чтобы сохранить внутреннюю структуру данных или, например, отранжировать параметры относительно друг друга, чтобы это можно было использовать в обучении моделей?
Формирование синтетических данных видится наиболее перспективным вариантом защиты оригинальных данных с сохранением структуры и ранжированности.
Вопрос в количестве данных, на которых можно провести начальную аналитику. Например, если это фото паспортов, и отдел ИБ говорит нам, что отдать 1000 паспортов для обучающей выборки ― это ещё приемлемо, а 10 000 ― уже нет.
При использовании Veils-решения защищенными будут и 1000 паспортов, и 10000, и сколь угодно много.
Как ваш сервис встраивается в MLOps-пайплайн заказчика?
По пайплайну, если DS сейчас используют не секьюрные данные, а планируют на них переходить, то в любом случае существующий пайплайн модифицируется. Немного другие сетки, способы предварительной и постобработки данных. Это компенсация за дополнительную фичу, но все эти изменения не меняют облик работы кардинальным образом.
Предоставляете ли вы услуги ML и DS?
Нет, мы предоставляем только продукт, который помогает защищать данные. После вы самостоятельно можете использовать эти данные в ML и DS.
Могла бы ваша система шифровать не весь документ, а только чувствительные данные? Скажем, прогоняешь весь планируемый к передаче датасет, а на выходе получаешь документы без чувствительных данных?
Это задача анонимизации данных, которые в последующем не будут участвовать в тренировке ML-моделей.
Это не про наш продукт.
Скажите, чтобы на нашей стороне зашифровать видео для передачи вам, что нужно будет развернуть?
Необходимо будет развернуть докер-контейнер, указать папку с входными видео, папку для выходных данных и сгенерировать секретный ключ преобразования.
Какие мощности нужны будут для шифрования?
Достаточно обычного компьютера или ноутбука, наличие ГПУ приветствуется.
Будут ли работать на реальных данных модели, обученные на синтетике?
Да, синтетические данные генерируются так, чтобы обеспечить работоспособность обученной модели на реальных данных.
Как вы проверяете устойчивость вашего продукта к уязвимостям?
Мы проактивно мониторим и применяем классические и инновационные методы проверки на уязвимости.
Чем вы лучше криптоанклавов?
Мы занимаемся разработкой методов защиты данных, способных работать вне зависимости от систем разграничения прав доступа.
Возможно ли проводить фичаинжениринг на защищённых данных?
Здесь можно говорить о двух вариантах:
1. Предоставление DS образца реальных данных для ознакомления и оценки свойств, чтобы его проанализировать и использовать для настройки весов, логики, фич, прочего.
2. Предоставление DS синтетически сгенерированных данных, воспроизводящих статистические свойства оригинальных.
Специалисту по DS нужно видеть глазами данные перед обучением, чтобы понять физические зависимости между ними. Как в этом случае работает технология защиты данных?
Если DS является представителем владельца данных, то он работает с открытыми данными.
Если же DS является представителем сторонней организации без права доступа к оригинальным данным, наш продукт не позволит ему просматривать данные.
Может ли ваш продукт работать с LLM?
По поддержке самостоятельно обучаемых LLM мы ведём исследования.
В случае LLM с закрытой архитектурой, нет возможности ни квантовать для гомоморфного инференса, ни переобучать/дообучать с целью сращивания с Veils.
Нужно ли разбираться в шифровании, чтобы использовать ваш продукт?
Нет, напротив, мы стремимся сделать свой продукт максимально доступным для использования, в том числе пользователями, не имеющими даже технического образования.
Применим ли ваш продукт для случаев, когда владелец данных не нуждается в ML-моделях?
Да, в этом случае данные владельца могут быть использованы в защищённом виде для обучения ML-алгоритма третьей стороны, которая затем и будет использовать этот алгоритм.
Как это работает в целом?
Данные преобразуются специальным образом так, чтобы их было невозможно восстановить, идентифицировать и/или интерпретировать, и при этом они могли бы использоваться при обучении ML-алгоритмов.
Как работает метод FHE?
Алгоритмы полного гомоморфного шифрования (FHE) позволяют выполнять операции сложения и умножения над шифртекстами так, что сумма и произведение шифртекстов после расшифрования равна сумме и произведению соответствующих открытых данных.
Защищает ли ваш продукт всю модель?
Гомоморфное шифрование и Veils-подход защищают в том числе и обучаемую модель.
Чем вы лучше блокчейна?
Сравнение наших решений и блокчейна не имеет смысла, так как технология блокчейна предназначена для обеспечения целостности данных и не имеет отношения к обеспечению конфиденциальности данных и обучению ML-алгоритмов.
Будет ли у вас доступ к данным?
Ни в коем случае! Суть решения именно в том, чтобы кроме владельца данных доступа к ним не было больше ни у кого.
У кого есть доступ к данным в зависимости от используемого вами методов и протоколов?
Суть решения именно в том, чтобы кроме владельца данных доступа к ним не было больше ни у кого.