Написать нам
on-cloud-1.webp
Дата
Просмотрено
eye 161
Новости компании

Какими минусами облачных сервисов можно пренебречь, если использовать техники Privacy-Preserving Machine Learning?

По прогнозам McKinsey, к 2030 году внедрение облачных технологий может принести до US$ 3 трлн. EBITDA в таких отраслях, как розничная торговля, фармацевтика и энергетика [1]. В свою очередь, Gartner считает, что к 2028 году объем рынка публичных облачных сервисов достигнет US$ 1,28 трлн [2].

Рост популярности облаков очевиден, и тот, кто стоит перед выбором обучать ML-модели на своих ресурсах или идти в облака, взвешивает все за и против.

В целом провайдеры облачных услуг стараются придать больше значения позитиву и успокоить негативные возражения. Однако для разных пользователей с их конкретными кейсами вес отдельно взятых плюсов и минусов, конечно, не будет одинаковым.

В Guardora мы работаем с решениями для защиты данных в рамках машинного обучения, и у этой статьи есть две цели:

1. Очертить верхнеуровневую карту битвы для тех, кто стоит перед упомянутым выбором.

2. Помочь понять, какими минусами можно пренебречь, и освободить голову для других важных решений, если применять техники Privacy-Preserving Machine Learning.

Плюсы и минусы облачных сервисов для целей машинного обучения

ПризнакПлюсыМинусы
Масштабируемость и развертывание в производстве для реальных рабочих нагрузокОблачные сервисы позволяют быстро увеличивать или уменьшать объем ресурсов в зависимости от потребностей, будь то небольшие модели или сложные глубокие нейросети.
Даже если пользователь будет располагать внутренней командой, способной создавать алгоритмы, развернуть модели в производстве и масштабировать их для реальных рабочих нагрузок представляется отдельной сложной задачей, требующей больших вычислительных кластеров.
Возможна недоступность запрашиваемых мощностей, и тогда остаются либо ожидание высвобождения, либо затруднительная смена провайдера.
Инфраструктура и контрольНет необходимости покупать и обслуживать дорогостоящее специализированное оборудование и серверы.
Можно просто арендовать вычислительные мощности в облаке.
Экспертиза, необходимая для создания, обучения и развертывания моделей машинного обучения в корпоративных приложениях, увеличивает стоимость рабочей силы, разработки и инфраструктуры.
В долгосрочной перспективе, при постоянной работе и больших объемах данных, аренда облачных мощностей может оказаться дороже, чем покупка собственного оборудования.
В облаке меньше контроль над физической инфраструктурой. Вынужденно приходится мириться с техническими сбоями и плановыми работами. Нет возможности полностью оптимизировать аппаратные ресурсы, что может быть важно для специфичных задач.
Появляется необходимость обращений к администраторам ресурсов для решении возникающих проблем.
Производительность и снижение временных затрат на обучение моделейНезамедлительная доступность производительных графических и тензорных процессоров в облаках позволяет ускорить обучение моделей.Необходимость загрузки обучающих датасетов в облачное хранилище может свести на нет преимущества быстрой доступности вычислительных мощностей.
Квалификация командыОблако вместе с AIaaS платформами обеспечивают доступ к возможностям машинного обучения без необходимости найма высококвалифицированных специалистов в области искусственного интеллекта или науки о данных.
Пользователь освобождается от необходимости содержать большую команду, обслуживающую инфраструктуру и всё, что с ней связано[3].
Системы машинного обучения, даже если они управляются в облаке, все равно требуют человеческого контроля и оптимизации.
Существуют практические ограничения того, что может сделать искусственный интеллект без человеческого контроля и вмешательства.
Алгоритмы не понимают всего о ситуации и не знают, как реагировать на каждый возможный ввод.
Гибкость оплатыМожно оплачивать только те ресурсы, которые используются, без необходимости крупных первоначальных вложений.
Облачные сервисы предлагают различные тарифные планы, включая поминутную оплату, что позволяет оптимизировать расходы.
Зависимость от инфляционных корректировок тарифов при долгосрочном сотрудничестве.
АвтоматизацияЕсть возможность автоматизации процессов развертывания и управления моделями.
Доступность из любой точки мира и удобство коллаборацииИнженеры могут работать удалённо, не привязываясь к одному серверу или компьютеру.
Несколько пользователей могут одновременно работать с одной и той же моделью или проектом.
Зависимость от интернетаОблачные сервера имеют, как правило, более скоростное соединение, что полезно при удаленном скачивании или передаче данных.Необходимо стабильное интернет-соединение для доступа к облачным ресурсам, что может стать проблемой в случае перебоев связи.
Быстрая настройка средыДля работы с облаком не требуется сложная конфигурация оборудования и установка ПО — всё доступно "из коробки".При запуске моделей машинного обучения в облаке может быть сложно перенести системы из одного облака или сервиса в другой.
Для этого требуется перемещать данные таким образом, чтобы это не влияло на производительность модели.
Модели машинного обучения часто чувствительны к небольшим изменениям во входных данных. Например, модель может работать некорректно, если вам нужно изменить формат или размер ваших данных.
Поддержка современных инструментовОблака предоставляют возможность выбора из множества инструментов и сервисов для различных задач, включая инструменты для работы с популярными библиотеками и фреймворками, такими как Scikit Learn, TensorFlow, PyTorch и другие.
Интеграция с другими сервисамиОблачные провайдеры часто предоставляют готовые решения для хранения данных, аналитики и связанных задач, равно как и легкую интеграцию с другими сервисами и инструментами.Возможные проблемы с совместимостью между различными облачными сервисами.
Обновления и поддержкаПровайдеры облачных сервисов регулярно обновляют инфраструктуру без необходимости ручного вмешательства.
Предлагается круглосуточная техническая поддержка и обширная документация по принципу одного канала для любых вопросов.
Ограничения по пропускной способности и медленная загрузка больших наборов данныхПередача больших наборов данных в облако может занять много времени и потребовать значительных ресурсов.
Обработка больших объемов данных может занять больше времени из-за ограничений на передачу данных по сети.
Технические сбои у провайдераВозможны сбои в работе облачных сервисов, что может повлиять на доступность проектов и обучение моделей.
Зависимость от провайдераВ случае смены или прекращения работы провайдера может потребоваться перенос данных и переобучение инфраструктуры.
Наличие других рисков, связанных с зависимостью от одного поставщика услуг.
Безопасность данных и ML-моделейПровайдеры облачных сервисов обеспечивают защиту данных.
Не все пользователи могут систематически внедрять новейшие разработки в области технологий конфиденциальности и безопасности.
Это может привести к отставанию, поскольку поддержание безопасности на самом высоком уровне становится все более сложным и требует специальных знаний.
Особняком стоит безопасность на основе машинного обучения в облачных вычислениях [4].
Данные, передающиеся и хранящиеся в облаке, могут подвергаться рискам более разнообразных кибератак, несмотря на меры безопасности провайдеров [5].
Облачное машинное обучение подвержено тем же проблемам, что и любая облачная вычислительная платформа.
Облачные системы машинного обучения часто подвергаются воздействию публичных сетей и могут быть скомпрометированы злоумышленниками, которые могут манипулировать результатами МО или увеличивать расходы на инфраструктуру.
Облачные модели МО также уязвимы для атак типа «отказ в обслуживании» (DoS). Многие из этих угроз отсутствуют, когда модели развернуты за корпоративным брандмауэром [6].
Ограничения по конфиденциальностиОблачные сервисы могут не подходить для работы с конфиденциальными данными из-за правовых или корпоративных ограничений [7].
Юридические и нормативные проблемы с локализацией данныхНекоторые облачные провайдеры могут хранить данные в других странах, что может вызвать юридические или нормативные проблемы.

Какими из вышеуказанных минусов можно пренебречь, если использовать техники Privacy-Preserving Machine Learning?

Безопасность данных и ML-моделей: методы PPML целенаправленно решают проблемы безопасности данных и сохранности моделей, делая эти переменные неактуальными при использовании облачных сервисов.

Ограничения по конфиденциальности: поскольку PPML гарантирует, что конфиденциальные данные остаются не интерпретируемыми и защищенными даже в случае утечек, опасения по поводу сохранности чувствительных данных в облаке становятся беспочвенными.

Юридические и нормативные проблемы с локализацией данных: техники защиты, например, помогают перевести данные из разряда персональных в анонимизированные, освобождая пользователя от соответствия строгим нормативным требованиям, таким как GDPR или запрет на трансграничную передачу.

Последним двум пунктам хочется уделить особое внимание

Например, такие методы, как гомоморфное шифрование, дифференциальная конфиденциальность и генерация синтетических данных, обладают потенциалом анонимизации данных. Их использование может снять необходимость соблюдения правил защиты персональных данных. Законов, прямо утверждающих это, на момент публикации статьи нет, но есть ряд следующих прецедентов, дающих косвенные подтверждения.

1. Решение Генерального суда ЕС по делу T-557/20 «Единый совет по разрешению против Европейского надзора по защите данных». В нем подчеркивается, что определение того, были ли данные анонимизированы, требует оценки риска повторной идентификации на основе рисков и контекста[8].

Напомним, что анонимизация это процесс удаления личных идентификаторов из данных так, чтобы невозможно было повторно идентифицировать человека. Анонимизированные данные не считаются персональными в соответствии с GDPR и, следовательно, не подпадают под его действие (Статья 4(1) и Предпосылка 26 GDPR)[9].

То есть после применения методов PPML к персональным данным они перестают быть «персональными» в толковании закона. Значит, такие данные больше не подпадают под различные правовые ограничения и требования по защите данных при использовании, распространении и даже передаче через границы.

Так компании могут использовать данные более свободно, экономить средства на соблюдение требований по защите и реализовывать проекты, которые ранее были недоступны из-за правовых ограничений по защите данных.

Cуд постановил, что для определения того, является ли лицо идентифицируемым, следует учитывать все средства, которые с большой долей вероятности могут быть использованы (затраты и количество времени, необходимые для идентификации, доступные технологии на момент обработки), и что этот тест должен проводиться с точки зрения получателя/владельца данных.

2. Статья 29 Рабочая группа по защите данных 0829/14/EN WP216
Мнение 05/2014 о методах анонимизации, принято 10 апреля 2014 года

A.2. «Анонимизация» путем рандомизации
[10]

“… Пока ключ или исходные данные доступны (даже в случае доверенной третьей стороны, обязанной по договору предоставлять услуги безопасного хранения ключей), возможность идентифицировать субъекта данных не исключена. …”

Другими словами, если ключ расшифрования недоступен, то данные могут считаться анонимными.

3. Постановление (ЕС) 2018/1725 Европейского Парламента и Совета от 23 октября 2018 г. о защите физических лиц в отношении обработки персональных данных учреждениями, органами, офисами и агентствами Союза и о свободном перемещении таких данных и отменяющий Регламент (ЕС) № 45/2001 и Решение № 1247/2002/ЕС[11]

Предпосылка 16

Принципы защиты данных должны применяться к любой информации, касающейся идентифицированного или поддающегося идентификации физического лица. 

Персональные данные, подвергшиеся псевдонимизации, которые могут быть отнесены к физическому лицу с помощью дополнительной информации, должны рассматриваться как информация об идентифицируемом физическом лице. 

Чтобы определить, является ли физическое лицо идентифицируемым, следует принять во внимание все средства, которые с достаточной степенью вероятности могут быть использованы, например, выделение контролером или другим лицом, для прямой или косвенной идентификации физического лица. 

Для определения того, можно ли с достаточной степенью вероятности использовать средства для идентификации физического лица, следует учитывать все объективные факторы, такие как затраты и количество времени, необходимые для идентификации, принимая во внимание доступные технологии на момент обработки и развитие технологий.

Таким образом, принципы защиты данных не должны применяться к анонимной информации, а именно к информации, которая не относится к идентифицированному или идентифицируемому физическому лицу, или к персональным данным, которые становятся анонимными таким образом, что субъект данных не идентифицируется или более не идентифицируется. 

Таким образом, данное Положение не касается обработки такой анонимной информации, в том числе в статистических или исследовательских целях.

4. Дело C-582/14[12]

Весомость возможности идентификации субъекта данных и степени риска идентификации в связи с необходимостью несоразмерных усилий с точки зрения времени, стоимости и рабочей силы.

5. Руководство по технологиям, повышающим уровень конфиденциальности, подготовленное Управлением комиссара по информации Великобритании (ICO)[13]

“Пример … Больница делится информацией с исследователями, изучающими региональные тенденции заболеваемости COVID-19. В этом случае больница генерирует синтетические данные для исследователей, возможно, в сочетании с дифференцированной конфиденциальностью для достижения эффективной анонимизации.”

“Неинтерактивная дифференциальная конфиденциальность это когда уровень идентифицируемой информации является свойством самой информации, которая устанавливается для заданного бюджета конфиденциальности. Этот подход может быть полезен для публикации анонимной статистики для всего мира.”

“Обе модели дифференциальной конфиденциальности способны предоставлять анонимную информацию в качестве выходных данных, если к данным добавляется достаточный уровень шума. Локальная модель добавляет шум к отдельным (входным) точкам данных, чтобы обеспечить надежную защиту конфиденциальности чувствительных атрибутов. Поскольку шум добавляется к каждому индивидуальному вкладу, это приведет к менее точной и полезной информации, чем глобальная модель.”

Справедливости ради, стоит изучить раздел “Каковы различные типы PET?” и не столь оптимистичную таблицу о том, какие PET обеспечивают конфиденциальность на входе и выходе. 

Также полезной представляется таблица с примерами вариантов использования PET, обсуждаемых в этом руководстве, и информацией о наличии стандартов и известных ограничениях. Ваши цели могут потребовать комбинации методов для обеспечения необходимой защиты на всех различных этапах жизненного цикла обработки данных. Это не исчерпывающий список.

В целом по всему миру есть законы, защищающие персональные и конфиденциальные данные. Правильно анонимизированные данные не подпадают под их действие, то есть освобождены от ограничений конфиденциальности. Под “правильной анонимизацией” обобщённо понимают невозможность обоснованной повторной идентификации.

Если копать глубже, то контролёр либо сторона, предъявляющая претензии, должны в процессе доказывания:

  • провести тесты;
  • принять во внимание все средства, которые с достаточной степенью вероятности доступны им и могут быть использованы;
  • учесть все объективные факторы, такие как затраты и количество времени, необходимые для идентификации;
  • принять во внимание технологии, доступные на момент обработки, а также развитие технологий.

Вернёмся к облакам

Персональные или поведенческие данные, данные о взаимодействиях, интересах и связях пользователей давно стали ценным активом. Их собирают, анализируют, используют и монетизируют множеством способов. 

Облака нуждаются в доверии не только физических лиц, но и компаний, защищающих свои данные, интеллектуальную собственность, ноу-хау и сами модели машинного обучения. 

NDA и законы о защите данных это хорошо, но их эффективность может быть установлена ​​только в ходе судебного разбирательства. Намного позднее самих инцидентов. 

Сертификаты соответствия тоже не дают активную защиту, позволяющую забыть о тревогах, связанных с утечками по причине человеческого фактора. 

То есть возникает своего рода потребность, при которой пользователи, сохраняя рациональность, должны иметь доступ к технологиям, обеспечивающим защиту, скажем так, на параноидальном уровне.

Некоторые эксперты считают, что сейчас доверие к облакам напоминает анекдот про “игорный клуб, в котором всем принято верить на слово”. И этот клуб может закрыться после первого же глобального скандала, связанного с конфиденциальностью.

Компании, готовые позволить себе это финансово, кадрово и по срокам, выбирают локальные решения или создают собственные системы. Однако даже они проходят процесс принятия решений с учетом “облачных плюсов и минусов”, приведенных в начале статьи.

Техники Privacy-Preserving Machine Learning не требуют слепого доверия к облакам, так как обеспечивают соблюдение ограничений конфиденциальности алгоритмически, давая ощутимую и проверяемую защиту конфиденциальности. 

Умелая комбинация разных методов, техник и протоколов PPML обеспечивает непрозрачность данных, защищает от обратного проектирования источников конфиденциальных данных и создает надежную инфраструктуру конфиденциальности, делая возможной обработку по принципу «что видишь, то и получаешь» (What You See Is What You Get).

Хотите быть в курсе, когда некоторые методы и протоколы Privacy-Preserving Machine Learning будут однозначно признаны анонимизирующими законодательством той или иной страны?

Хотите обсудить использование облаков и думаете, что техники повышения конфиденциальности помогут вам принять это решение?

Просто интересуетесь затронутыми в статье темами, хотите задать вопросы или не согласны с чем-то?

Присоединяйтесь к нашему сообществу в Discord и давайте поговорим об этом.

[1] Projecting the global value of cloud: $3 trillion is up for grabs for companies that go beyond adoption

[2] Forecast: Public Cloud Services, Worldwide, 2022-2028, 2Q24 Update

[3] Data science and Machine learning in the Clouds: A Perspective for the Future

[4] A Review of Machine Learning-based Security in Cloud Computing

[5] Securing Machine Learning in the Cloud: A Systematic Review of Cloud Machine Learning Security

[6] Machine Learning in the Cloud Complete Guide for 2023

[7] Research trends in deep learning and machine learning for cloud computing security

[8] EU General Court (Single Resolution Board v. European Data Protection Supervisor Case T-557/20)

[9] General Data Protection Regulation

[10] ARTICLE 29 DATA PROTECTION WORKING PARTY 0829/14/EN WP216

[11] REGULATION (EU) 2018/1725 OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL of 23 October 2018

[12] Judgment of the Court (Second Chamber) of 19 October 2016

[13] Privacy-enhancing technologies guidance by the UK’s Information Commissioner’s Office (ICO)

logo

Последние статьи

все статьи
statya2-min.webp

Большие языковые модели и эффект случайного попутчика

Психолог Зик Рубин ввел термин «эффект случайного попутчика», чтобы описать склонность людей делиться личной информацией с незнакомцами, которых они вряд ли встретят снова.

eye 335
logo
statya3-min.webp

Врачебная тайна и конфиденциальность данных в машинном обучении

Здравоохранение ― это одна из областей, где высоко востребованы машинное обучение и конфиденциальные вычисления.

eye 348
logo
statya4-min.webp

Роевой интеллект и технологии повышения конфиденциальности

Как технологии повышения конфиденциальности могут помочь преодолеть проблемы развития и применения роевого интеллекта?

eye 209
logo
все статьи
Подпишитесь
на наши новости