Произошла утечка данных в обучающих наборах ИИ

Произошла утечка данных в обучающих наборах ИИ

В массиве данных Common Crawl, широко используемом для обучения искусственного интеллекта, обнаружено почти 12 тысяч актуальных API-ключей и паролей. Исследователи компании Truffle Security, проанализировав 400 терабайт данных, включающих 2,67 миллиарда веб-страниц, выявили многочисленные секретные данные, оставленные в открытом доступе.

Причиной утечки стало включение данных аутентификации непосредственно в программный код веб-приложений, что нарушает базовые принципы безопасной разработки. В результате конфиденциальные ключи и пароли оказались в открытых источниках, откуда их могли извлечь как легитимные исследователи, так и злоумышленники.

Аренда VPS c GPU от 7749 руб/месяц

Преимущества аренды VPS с GPU от AdminVPS:

Наша команда поддержки доступна 24/7, чтобы помочь вам с настройкой и обслуживанием. Мы всегда рядом, чтобы ответить на все вопросы и обеспечить бесперебойную работу сервера.

Эксперты выявили, что наибольшее число утекших данных связано с такими сервисами, как:

  • Amazon Web Services,
  • MailChimp (1500 уникальных ключей, встроенных в HTML и JavaScript),
  • WalkScore (ключ, встречавшийся более 57 000 раз на 1871 субдомене).

Эти ключи могут использоваться для фишинговых атак, подделки брендов, компрометации инфраструктуры и несанкционированного доступа к данным.

После выявления проблемы Truffle Security связались с разработчиками и помогли отозвать тысячи ключей. Однако остаётся вероятность, что часть конфиденциальных данных уже могла попасть в руки злоумышленников.

Риски для обучения ИИ

Обнаруженные в Common Crawl данные могли использоваться для обучения моделей OpenAI, DeepSeek, Google, Anthropic и других. Несмотря на наличие фильтров для удаления чувствительных данных, результаты исследования показывают, что фильтрация не всегда эффективна.

Эксперты предупреждают, что использование некачественного или уязвимого кода в обучающих выборках может негативно сказываться на работе больших языковых моделей. Кроме того, аналогичные утечки могут применяться для создания вредоносных ИИ, предназначенных для кибератак.

Выявленные утечки демонстрируют необходимость пересмотра стандартов безопасного хранения и обработки данных в процессе обучения ИИ. Разработчикам следует уделять больше внимания защите конфиденциальной информации, а компаниям — внедрять строгие меры контроля за утечками API-ключей и паролей.

Читайте в блоге:

Loading spinner
0 Комментарий
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии

VPN на VPS-сервере

Узнайте, как создать собственный VPN на VPS-сервере для защиты ваших конфиденциальных данных!

Что будем искать? Например,VPS-сервер

Мы в социальных сетях