Разработан метод оценки производительности нейросетей при обработке больших объёмов данных

Учёные из Научно-исследовательского института AIRI, Московского физико-технического института и Лондонского института математических наук (LIMS) разработали бенчмарк BABILong, предназначенный для оценки эффективности больших языковых моделей (Large language model, LLM) при обработке текстов больших объёмов.

Нужен сервер с видеокартой для нейросети? У нас — всё готово для старта.

Тест использует подход «иголки в стоге сена»: предложения, необходимые для решения исходного задания, разбросаны по тексту между нерелевантными участками, а от ИИ для успешного выполнения задания требуется способность отличать важную информацию от второстепенной или незначимой. Тест включает 20 задач разной сложности на анализ обособленных фактов в длинных документах. Среди них простой поиск, подсчёт, синтез данных, задачи, требующие индуктивного и дедуктивного подходов, операции со списками и множествами. BABILong выложен в открытом доступе: разработчики предлагают проверить свои большие языковые модели и принять участие в формировании рейтинга LLM, который бы отражал реальное состояние в области NLP, а также обучать свои модели на BABILong.

Для решения задачи нейросеть одновременно оперирует объёмом информации определённой величины, который называется «длина контекста». Чем больше длина контекста, тем эффективнее нейросеть обрабатывает информацию — поэтому разработчики стремятся увеличить этот параметр. Но фактически LLM анализируют лишь небольшую часть данных, отдавая предпочтение информации из начального и конечного фрагментов документа как наиболее важной. Кроме того, с усложнением задач падает эффективность их решения.

Сервер c GPU-картой: арендуйте по доступной цене сервер для выполнения самых требовательных задач, от машинного обучения и анализа данных до рендеринга и виртуализации.

Купить GPU-сервер

BABILong оценивает ответы по двум параметрам: точность и зависимость точности от длины контекста. В основу бенчмарка учёные положили набор данных bAbI в качестве фактов и PG19 в качестве фонового текста, в итоге тестовые образцы достигают длины в миллионы токенов. 20 заданий bAbI генерируются путём моделирования набора персонажей и объектов, которые двигаются или взаимодействуют друг с другом в нескольких местах текста, задания различаются в зависимости от количества представленных в тексте фактов, сложности вопроса и аспектов рассуждения.

Анализ десятков моделей показал, что производительность заметно падает, если объём значимой информации превышает 25 % от длины контекста. Это говорит о необходимости продолжать работу над механизмами обработки контекстной информации.

Учёные также адаптировали BABILong для русского языка; русскоязычная версия бенчмарка была разработана совместно с R&D SberDevices и названа Libra. Как и BABILong, Libra тестирует LLM на текстах большого объёма, генерируя аналогичные задания.

Читайте в блоге: