Исследователи предложили новую архитектуру нейросетей, которая опирается на работы российских математиков

В основе всех архитектур глубокого обучения лежит структура, называемая многослойный перцептрон (MLP). В 2024 году исследователи из Массачусетского технологического института, Калифорнийского технологического института, Бостонского северо-восточного университета и Института ИИ и фундаментальных взаимодействий при Национальном научном фонде США предложили альтернативу MLP — нейросеть Колмогорова-Арнолда (KAN), разработанную на базе трудов советских и российских учёных Андрея Колмогорова и Владимира Арнольда. Новая архитектура нейронной сети может значительно повлиять на развитие ИИ-технологий в ближайшем будущем. По утверждению исследователей, нейросети KAN превосходят MLP по точности и интерпретируемости: гораздо меньшие по размеру KAN могут достигать или превосходить по точности более крупные MLP, например, при подгонке физических уравнений и решении задач. Также на практике было подтверждено теоретическое предположение, что KAN обладают более быстрыми законами нейронного масштабирования, чем MLP.

Андрей Колмогоров — великий советский математик, один из основоположников современной теории вероятностей; Владимир Арнольд — не менее известный советский и российский учёный, ученик Андрея Колмогорова. Идея KAN основана на их теореме о представлении (она же — теорема о суперпозиции), утверждающей, что сложные функции многих переменных могут быть представлены в виде суперпозиции более простых одномерных функций — то есть любую сложную функцию можно представить в виде более простых. Обучение нейронной сети с такой архитектурой представляет собой подбор оптимального набора таких функций.

Мощные графические серверы для машинного обучения и других задач в аренду от надёжного провайдера AdminVPS по адекватной цене.

Выбрать сервер с GPU

В чём же практическое преимущество KAN перед MLP? KAN показывает большую эффективность параметров, и ей требуется в несколько раз меньше нейронов. Также KAN обладает более высокой интерпретируемостью по сравнению с MLP и легче справляется с динамическими задачами. При этом новая архитектура имеет один весомый недостаток: она затрачивает на обучение в несколько раз больше времени, чем MLP.

Искусственная нейронная сеть (ИНС) — общее название математических моделей, созданных по образцу биологической сети нейронов; ИНС представляет собой совокупность связанных и взаимодействующих между собой простых процессоров (аналогов нейронов). В основе моделей лежит представление о способах восприятия и обработки информации мозгом, и по образцу мозга модели состоят из сенсоров, ассоциативных и реагирующих элементов. Многослойный перцептрон — одна из элементарных моделей, описывающих нейронные сети живых организмов. Архитектура MLP в чистом виде уже не применяется для решения практических задач — на её основе создают более сложные нейронные сети. Исследователи, предложившие KAN, высказывают мнение, что новая архитектура является многообещающей и перспективной альтернативой MLP в задачах, связанных с наукой и машинным обучением.

Читайте в блоге: