В массиве данных Common Crawl, широко используемом для обучения искусственного интеллекта, обнаружено почти 12 тысяч актуальных API-ключей и паролей. Исследователи компании Truffle Security, проанализировав 400 терабайт данных, включающих 2,67 миллиарда веб-страниц, выявили многочисленные секретные данные, оставленные в открытом доступе.
Причиной утечки стало включение данных аутентификации непосредственно в программный код веб-приложений, что нарушает базовые принципы безопасной разработки. В результате конфиденциальные ключи и пароли оказались в открытых источниках, откуда их могли извлечь как легитимные исследователи, так и злоумышленники.
Эксперты выявили, что наибольшее число утекших данных связано с такими сервисами, как:
- Amazon Web Services,
- MailChimp (1500 уникальных ключей, встроенных в HTML и JavaScript),
- WalkScore (ключ, встречавшийся более 57 000 раз на 1871 субдомене).
Эти ключи могут использоваться для фишинговых атак, подделки брендов, компрометации инфраструктуры и несанкционированного доступа к данным.
После выявления проблемы Truffle Security связались с разработчиками и помогли отозвать тысячи ключей. Однако остаётся вероятность, что часть конфиденциальных данных уже могла попасть в руки злоумышленников.
Риски для обучения ИИ
Обнаруженные в Common Crawl данные могли использоваться для обучения моделей OpenAI, DeepSeek, Google, Anthropic и других. Несмотря на наличие фильтров для удаления чувствительных данных, результаты исследования показывают, что фильтрация не всегда эффективна.
Эксперты предупреждают, что использование некачественного или уязвимого кода в обучающих выборках может негативно сказываться на работе больших языковых моделей. Кроме того, аналогичные утечки могут применяться для создания вредоносных ИИ, предназначенных для кибератак.
Выявленные утечки демонстрируют необходимость пересмотра стандартов безопасного хранения и обработки данных в процессе обучения ИИ. Разработчикам следует уделять больше внимания защите конфиденциальной информации, а компаниям — внедрять строгие меры контроля за утечками API-ключей и паролей.
Читайте в блоге:
- Промпты для нейросетей: что это, зачем нужны и как их использовать
- Как ChatGPT, только дешевле: почему китайскую нейросеть DeepSeek стоит попробовать уже сегодня
- Как использовать нейросети в SEO-оптимизации