Может ли нечто подобное происходить с большими языковыми моделями (LLM)?
Корпоративная информационная безопасность все больше обеспокоена растущим числом случаев, когда сотрудники делятся конфиденциальными данными с ChatGPT, Gemini, Copilot и другими менее известными большими языковыми моделями.
Юристы составляют краткие справки по договорам, содержащим данные о контрагентах, технические спецификации, цены и особые условия. Программисты редактируют код, важный для критических архитектур. Переводчики работают с текстами, содержащими конфиденциальную информацию.
С другой стороны, компании пытаются интегрировать ИИ-помощников и заменить традиционные модели машинного обучения на LLM.
Вот несколько примеров использования, с которыми мы столкнулись в Guardora:
- Прослушивание записей отдела продаж для оценки и анализа их взаимодействия с клиентами.
- Понимание тональности взаимодействия с клиентами в режиме реального времени. Например, если клиент становится более раздражительным, система может переключить его на специалиста более высокого ранга, который сможет решить его проблемы и разрядить негативные настроения.
- Кластеризация пользователей на основе интересов и других критериев.
- Создание систем поиска и анализа документов с такими задачами, как резюмирование, исключение ключевых слов и защита персональных данных.
- Генерация текста, изображений, музыки и других медиафайлов с использованием источников с уникальным собственным контентом.
- Локализация видео с языка оригинала на другие языки.
- Разработка кластеров новых продуктов — помощников, которые поддерживают команды разработчиков, повышая производительность и сокращая время выхода на рынок. Они минимизируют ошибки и справляются с задачами, которые многим часто не нравятся (например, тестирование, документирование, обучение младших сотрудников). Эти инструменты в основном направлены на генерацию, проверку и отладку кода в различных тестах.
Однако главная проблема на этом обширном рынке ― использование LLM при обеспечении доступа к данным только для их владельца. Как защитить данные от третьих лиц, поставщиков облачных услуг или злоумышленников на всех этапах их передачи, хранения, обучения моделей, проверки качества и получения результатов?
Именно эту проблему призвана решить компания Guardora. Наши решения уже обеспечивают безопасность данных для некоторых сценариев использования на всем их пути, включая обучение ML-модели, проверку качества, вывод, а иногда даже защиту самой модели как интеллектуальной собственности.
В Guardora мы уделяем особое внимание обеспечению конфиденциальности запросов к ML-моделям и хотим сделать то же самое с LLM и генеративными моделями.
Вот список текущих проблем, которые нам необходимо решить до запуска наших первых прототипов:
- Обеспечение конфиденциальности обучающих наборов данных во время первоначального обучения LLM и генеративных моделей.
- Предотвращение несанкционированного использования LLM и генеративных моделей, обученных с нуля, третьими лицами.
- Защита конфиденциальности данных, используемых для тонкой настройки предварительно обученных LLM и генеративных моделей.
- Обеспечение конфиденциальности запросов, отправляемых к LLM и генеративным моделям.
Если эта тема интересует вас как пользователя или разработчика, присоединяйтесь к нашему сообществу Discord и участвуйте в обсуждении этих актуальных вопросов.