Как установить и запустить локальные нейросети на своем сервере

Содержание

ИИ, который работает на вашем собственном сервере, VPS с GPU или локальной машине — мечта или реальность? Рассказываем, какие нейросети можно запустить локально и что для этого потребуется.

Введение

Обычный компьютер сегодня способен на то, что ещё недавно требовало доступа к мощным дата-центрам. Нейросети, которые раньше жили только в облаке, теперь можно установить локально у себя на ПК или сервере. Генерация изображений, текста, видео и даже озвучка стали доступны прямо на вашем железе, без подписок и зависимостей от сторонних сервисов.

В статье рассказали про пять моделей нейросети, которые можно развернуть локально. Объяснили, что они умеют, какие у них требования, как их установить и использовать даже без опыта в разработке.

Аренда мощного VPS c GPU — от ₽7749/месяц

Преимущества виртуального сервера с видеокартой от AdminVPS:

✓ Идеален для нейросетей, машинного обучения, аналитики, рендеринга и виртуализации.

✓ Конфигурации с видеокартами NVIDIA (RTX A4000, A5000, A6000, 4090, 3090, 3080) под любые задачи.

✓ Бесплатная DDoS-защита — стабильная работа и безопасность ваших данных.

Наша команда поддержки на связи 24/7: поможем с настройкой, ответим на вопросы и обеспечим надёжную работу сервера!

Зачем запускать нейросети на ПК и сервере

Искусственный интеллект всё глубже проникает в нашу жизнь, и теперь он доступен не только через облако или сторонние сервисы, но и прямо на вашем компьютере. Зачем вообще пытаться запустить нейросеть локально?

Не всякую информацию безопасно отправлять в сеть. Если вы развернёте нейросеть локально, вам не придётся отправлять информацию в интернет-сервисы, все вычисления будут происходить прямо на вашем ПК или сервере. Локальный ИИ работает без подписок и лимитов, вы сами хозяин своей модели. И, конечно, такая система не зависит от Интернета и будет работать даже офлайн, что удобно в любой ситуации. Также запуск ИИ на своём оборудовании может сэкономить деньги. Вместо оплаты облачных вычислений вы используете ресурсы, которые уже есть. Вы сможете настраивать нейросеть под свои нужды, экспериментировать с параметрами, пробовать разные модели и добиваться нужного результата без ограничений чужой платформы.

Что нужно для локального ИИ: общие требования к железу

Чтобы развернуть нейросеть у себя, потребуется достаточно мощное железо. В первую очередь пригодится современный многоядерный процессор не хуже 8 ядер и быстрый диск NVMe SSD. Процессор берёт на себя часть вычислений и загрузку данных, а быстрый накопитель ускоряет загрузку большой модели и вашего датасета. Основная нагрузка, особенно при генерации изображений или сложных языковых задачах, ложится на видеокарту (GPU).

Высокопроизводительный графический процессор с большим объёмом видеопамяти — лучший друг локального ИИ. Чем больше VRAM, тем лучше: многие продвинутые модели требуют 8, 16 или даже 24 ГБ видеопамяти, особенно если запускать их в максимальном качестве. Конечно, существуют оптимизации, которые позволяют уменьшить потребление памяти за счёт небольшой потери точности, и о них мы поговорим позднее. Но в целом для серьёзных нейросетей понадобится дискретная видеокарта уровня NVIDIA GeForce RTX или профессиональные ускорители вроде NVIDIA A100 с как можно большим объёмом VRAM. Если планируется обучать модели у себя, а не только использовать готовые, то требования ещё выше. Придётся запастись топовым GPU и большим объёмом оперативной памяти.

Для начинающих также важно программное обеспечение. Большинство локальных моделей работают через фреймворки вроде PyTorch или TensorFlow, либо через специальные утилиты с более простым интерфейсом, например, готовые приложения для запуска чат-ботов или генерации картинок. В идеале ваша система должна поддерживать технологии ускорения вроде NVIDIA CUDA, если у вас GPU NVIDIA, или аналоги для AMD, чтобы нейросеть работала быстрее. На Windows, Linux и даже macOS есть свои нюансы настройки, но, как правило, сообществом уже подготовлено множество гайдов и инструментов, упрощающих установку.

Llama

Llama — серия языковых моделей с открытым кодом. Она умеет поддерживать диалог, писать статьи, объяснять код и помогать с переводом. Модель работает локально, без Интернета. Даже облегчённую версию можно установить на обычный компьютер. А значит, у вас под рукой полноценный помощник вроде ChatGPT, но без зависимости от облачных сервисов.

У Llama есть модели разного размера. Самая популярная версия с семью миллиардами параметров запускается на видеокарте с 8–12 ГБ видеопамяти. Более мощные варианты требуют 16 ГБ и выше, а крупные вроде Llama 70B работают только на серверных фермах. Чтобы уложиться в возможности ПК, используйте сжатые форматы. Например, при квантизации до 8 бит модели работают уже с 5–6 ГБ видеопамяти. А в самом лёгком варианте — INT8 — можно добиться запуска даже на старом ноутбуке с 4 ГБ на борту. Скорость будет скромной, но ИИ ответит.

Обучать такие модели с нуля почти нереально, но в этом нет нужды. Достаточно скачать готовые веса, а при желании донастроить под свои задачи. Установка и запуск доступны через простые инструменты: LM Studio, llama.cpp и другие интерфейсы. Есть и мобильные версии, хотя с ними результат пока больше для экспериментов. Лучше всего Llama чувствует себя на настольном ПК с хорошей видеокартой, там она раскрывается в полную силу.

Stable Diffusion

Stable Diffusion — генеративная нейросеть, которая создаёт изображения по текстовому описанию. Достаточно ввести фразу вроде «дом у моря на рассвете в акварели», и модель нарисует это за считанные секунды. Есть возможность добавить отрицательные запросы, то есть то, чего не должно быть на изображении, а также выбрать стиль. В отличие от закрытых сервисов, здесь всё работает локально, без Интернета и без ограничений по количеству генераций.

Эта модель стала популярной именно потому, что её можно установить даже на обычный компьютер. Для базовой версии достаточно видеокарты с 4–6 ГБ VRAM, особенно если использовать половинную точность вычислений. Более свежие варианты вроде Stable Diffusion XL уже требуют 8–12 ГБ, зато результат получается фотореалистичным. При тонкой настройке промпта изображения легко сравнить с работами иллюстраторов. Если же хочется анимировать позы или управлять композицией, можно подключить дополнительные модули, например ControlNet, но тогда лучше иметь минимум 12–16 ГБ видеопамяти.

Промпты для нейросетей: что это, зачем нужны и как их использовать

Для запуска подойдёт WebUI от AUTOMATIC1111. На смартфонах тоже есть решения. Приложение Draw Things работает на iPhone с чипом Apple Silicon прямо офлайн. На Android всё чуть сложнее, но при наличии мощного устройства возможен запуск облегчённых версий.

Pixtral 12B

Pixtral 12B — мощная мультимодальная нейросеть, способная работать и с текстом, и с изображениями. Она распознаёт фото, читает графики и таблицы, объясняет, что на картинке, и при этом отлично справляется с задачами обычного чат-бота. Можно загрузить документ или скриншот, и модель поймёт, что на нём изображено, и даст развёрнутый ответ. Разработчики сделали Pixtral полностью открытой, так что её реально запустить на своём компьютере.

У модели 12 миллиардов параметров, поэтому в чистом виде она требует 24 ГБ видеопамяти. Но если использовать сжатые версии, хватит 6–12 ГБ. Минимальная конфигурация укладывается даже в 3 ГБ VRAM, хоть и с потерей качества. При работе с изображениями желательно запускать модель на видеокарте, иначе всё будет тормозить. Оперативки лучше иметь от 16 ГБ — модель умеет работать с длинными текстами, а значит, быстро съедает память. На выходе получается универсальный инструмент: помощник, который не только пишет, но и читает всё, что вы ему покажете. Подготовьтесь к большому объёму, файлы весят десятки гигабайт, а хранить их лучше на SSD.

Falcon Mamba 7B

Falcon Mamba 7B — компактная языковая модель, созданная не на классических трансформерах, а на более лёгкой архитектуре, которая обрабатывает текст через внутренние состояния. Благодаря этому сокращаются задержки при генерации и снижается нагрузка на железо. По скорости она заметно выигрывает у привычных моделей, при этом оставаясь умной и понятной в общении.

У модели 7 миллиардов параметров — она примерно как младшая Llama, но работает быстрее и требует меньше ресурсов. Видеокарты с 6–8 ГБ памяти вполне достаточно, особенно если использовать сжатую версию. При максимальной экономии Falcon можно запустить даже с 2 ГБ VRAM, а при большом желании и на процессоре, хотя медленно. Она понимает естественный язык, пишет код, резюмирует тексты, справляется с диалогами и особенно хорошо подходит для голосовых ассистентов.

Установка не сложнее, чем у любой другой LLM. При этом её можно запускать даже на ноутбуке или недорогой рабочей станции. Если же локальных мощностей не хватает, модель можно развернуть на арендованном сервере с видеокартой, например, от AdminVPS.

GPT4All

GPT4All — это настольный офлайн-чат с ИИ, который можно установить на обычный компьютер. Он работает без Интернета, не требует API-ключей и не отправляет данные на серверы. Все ответы генерируются локально, прямо на вашем устройстве.

Основу GPT4All составляют лёгкие языковые модели, обученные на диалогах в стиле GPT-4. В основе открытые разработки вроде Llama. Уровень чуть ниже, чем у облачных сервисов, но для повседневных задач этого более чем достаточно: ответить на вопрос, помочь с кодом, перевести текст, придумать рассказ.

Программа доступна для Windows, macOS и Linux. Для запуска подойдёт ПК с 8 ГБ оперативной памяти и около 8 ГБ свободного места. На CPU модель работает медленнее, зато даже без видеокарты всё стабильно. Если есть GPU с 6 ГБ видеопамяти, отклик будет почти мгновенным. Чем мощнее железо, тем быстрее диалог.

Модель весит от 4 до 7 ГБ, поддерживает русский язык, если выбрать подходящую сборку. Можно переносить на флешке и запускать на другом устройстве. Есть даже варианты для Android через Termux, но они скорее для экспериментов.

Заключение

Локальный запуск нейросетей — это уже не роскошь, а вполне реальный способ поработать с ИИ прямо у себя на компьютере. Пусть сначала придётся разобраться с установкой, зато вы будете работать на своих условиях: без ограничений, без утечек, без чужих серверов. И если что-то не тянет, всегда можно упростить модель или настроить её под себя.

Читайте в блоге: