Учёные из Научно-исследовательского института AIRI, Московского физико-технического института и Лондонского института математических наук (LIMS) разработали бенчмарк BABILong, предназначенный для оценки эффективности больших языковых моделей (Large language model, LLM) при обработке текстов больших объёмов.
Тест использует подход «иголки в стоге сена»: предложения, необходимые для решения исходного задания, разбросаны по тексту между нерелевантными участками, а от ИИ для успешного выполнения задания требуется способность отличать важную информацию от второстепенной или незначимой. Тест включает 20 задач разной сложности на анализ обособленных фактов в длинных документах. Среди них простой поиск, подсчёт, синтез данных, задачи, требующие индуктивного и дедуктивного подходов, операции со списками и множествами. BABILong выложен в открытом доступе: разработчики предлагают проверить свои большие языковые модели и принять участие в формировании рейтинга LLM, который бы отражал реальное состояние в области NLP, а также обучать свои модели на BABILong.
Для решения задачи нейросеть одновременно оперирует объёмом информации определённой величины, который называется «длина контекста». Чем больше длина контекста, тем эффективнее нейросеть обрабатывает информацию — поэтому разработчики стремятся увеличить этот параметр. Но фактически LLM анализируют лишь небольшую часть данных, отдавая предпочтение информации из начального и конечного фрагментов документа как наиболее важной. Кроме того, с усложнением задач падает эффективность их решения.
Виртуальный сервер c GPU-картой: арендуйте по доступной цене сервер для выполнения самых требовательных задач, от машинного обучения и анализа данных до рендеринга и виртуализации.
BABILong оценивает ответы по двум параметрам: точность и зависимость точности от длины контекста. В основу бенчмарка учёные положили набор данных bAbI в качестве фактов и PG19 в качестве фонового текста, в итоге тестовые образцы достигают длины в миллионы токенов. 20 заданий bAbI генерируются путём моделирования набора персонажей и объектов, которые двигаются или взаимодействуют друг с другом в нескольких местах текста, задания различаются в зависимости от количества представленных в тексте фактов, сложности вопроса и аспектов рассуждения.
Анализ десятков моделей показал, что производительность заметно падает, если объём значимой информации превышает 25 % от длины контекста. Это говорит о необходимости продолжать работу над механизмами обработки контекстной информации.
Учёные также адаптировали BABILong для русского языка; русскоязычная версия бенчмарка была разработана совместно с R&D SberDevices и названа Libra. Как и BABILong, Libra тестирует LLM на текстах большого объёма, генерируя аналогичные задания.
Читайте в блоге:
- Серверы с большими языковыми моделями (LLM) с открытым кодом не могут обеспечить безопасность данных
- Без новых инвестиций OpenAI может обанкротиться
- «Облако» в Интернете: обзор полезных облачных сервисов