Произошла утечка данных в обучающих наборах ИИ

В массиве данных Common Crawl, широко используемом для обучения искусственного интеллекта, обнаружено почти 12 тысяч актуальных API-ключей и паролей. Исследователи компании Truffle Security, проанализировав 400 терабайт данных, включающих 2,67 миллиарда веб-страниц, выявили многочисленные секретные данные, оставленные в открытом доступе.

Причиной утечки стало включение данных аутентификации непосредственно в программный код веб-приложений, что нарушает базовые принципы безопасной разработки. В результате конфиденциальные ключи и пароли оказались в открытых источниках, откуда их могли извлечь как легитимные исследователи, так и злоумышленники.

Аренда мощного VPS c GPU — от ₽7749/месяц

Преимущества виртуального сервера с видеокартой от AdminVPS:

✓ Идеален для нейросетей, машинного обучения, аналитики, рендеринга и виртуализации.

✓ Конфигурации с видеокартами NVIDIA (RTX A4000, A5000, A6000, 4090, 3090, 3080) под любые задачи.

✓ Бесплатная DDoS-защита — стабильная работа и безопасность ваших данных.

Наша команда поддержки на связи 24/7: поможем с настройкой, ответим на вопросы и обеспечим надёжную работу сервера!

Эксперты выявили, что наибольшее число утекших данных связано с такими сервисами, как:

Amazon Web Services,
MailChimp (1500 уникальных ключей, встроенных в HTML и JavaScript),
WalkScore (ключ, встречавшийся более 57 000 раз на 1871 субдомене).

Эти ключи могут использоваться для фишинговых атак, подделки брендов, компрометации инфраструктуры и несанкционированного доступа к данным.

После выявления проблемы Truffle Security связались с разработчиками и помогли отозвать тысячи ключей. Однако остаётся вероятность, что часть конфиденциальных данных уже могла попасть в руки злоумышленников.

Риски для обучения ИИ

Обнаруженные в Common Crawl данные могли использоваться для обучения моделей OpenAI, DeepSeek, Google, Anthropic и других. Несмотря на наличие фильтров для удаления чувствительных данных, результаты исследования показывают, что фильтрация не всегда эффективна.

Эксперты предупреждают, что использование некачественного или уязвимого кода в обучающих выборках может негативно сказываться на работе больших языковых моделей. Кроме того, аналогичные утечки могут применяться для создания вредоносных ИИ, предназначенных для кибератак.

Выявленные утечки демонстрируют необходимость пересмотра стандартов безопасного хранения и обработки данных в процессе обучения ИИ. Разработчикам следует уделять больше внимания защите конфиденциальной информации, а компаниям — внедрять строгие меры контроля за утечками API-ключей и паролей.

Читайте в блоге: