Open-source AI модели в 2026: Gemma 4, GLM-5, Qwen 3.5 — бесплатные альтернативы GPT и Claude

Open-source AI модели в 2026: Gemma 4, GLM-5, Qwen 3.5 — бесплатные альтернативы GPT и Claude

Что произошло с open-source моделями за последние два месяца

В феврале Zhipu AI выложила GLM-5 под MIT-лицензией — 744 миллиарда параметров, и модель сразу встала рядом с Claude Opus 4.5 и GPT-5.2 по кодингу. В апреле Google выпустила Gemma 4 под Apache 2.0 — четыре модели от 2B до 31B, причём 31B-версия заняла третье место в Arena AI среди всех open-weight моделей. Alibaba обновила Qwen до версии 3.5 с линейкой от 27B до 397B параметров. Meta продолжает развивать Llama 4 с контекстом до 10 миллионов токенов.

Два года назад open-source модели проигрывали проприетарным по всем фронтам. Сейчас GLM-5.1 стоит в тройке лидеров Code Arena рядом с Claude Opus 4.6, а Gemma 4 запускается на телефоне. Для разработчиков из России, где OpenAI и Anthropic закрыты санкциями, это не абстрактная новость — это рабочие инструменты.

GLM-5 и GLM-5.1: китайский флагман для кодинга

Zhipu AI (теперь Z.ai) выпустила GLM-5 11 февраля 2026 года. Модель использует архитектуру Mixture-of-Experts с 744 миллиардами параметров, контекстом 200K токенов и максимальным выводом 128K токенов.

Цифры на бенчмарках:

БенчмаркGLM-5Claude Opus 4.6GPT-5.4
SWE-Bench Verified77.8%80.8%~75%
BrowseComp62%
Terminal-Bench 2.0#1

10 апреля вышла GLM-5.1 — обновлённая версия, которая набрала 1530 Elo в Code Arena. Это третье место в мире, сразу после Claude Opus 4.6 (1548 и 1542 Elo). Первая open-weight модель, попавшая в тройку лидеров по коду.

Zhipu позиционирует GLM-5 как модель для «агентной инженерии» — длинных задач вроде отладки, рефакторинга и оркестрации инструментов. GLM-5.1 может автономно работать над одной задачей до восьми часов, пересматривая стратегию по ходу.

Для разработчиков из России GLM-5 интересна по двум причинам. MIT-лицензия — коммерческое использование без ограничений. И модель обучалась на Huawei Ascend, а не на NVIDIA, то есть Zhipu не зависит от экспортных ограничений на чипы.

Через Ofox.ai GLM-5 доступна за $1.00/$3.20 за миллион токенов (вход/выход), GLM-5.1 — за $1.40/$4.40. Для сравнения, Claude Opus 4.6 стоит $5/$25. Разница в 5–7 раз при сопоставимом качестве кода.

Google Gemma 4: open-source модель уровня флагмана

2 апреля 2026 года Google DeepMind выпустила Gemma 4 — четыре модели под Apache 2.0. Google и раньше открывала модели, но такого уровня — впервые.

Линейка:

МодельПараметрыАктивныеКонтекстVRAM
Gemma 4 E2B2.3B2.3B32K~4 ГБ
Gemma 4 E4B4B4B32K~6 ГБ
Gemma 4 26B MoE26B4B256K8–12 ГБ
Gemma 4 31B Dense31B31B256K24+ ГБ

31B Dense заняла третье место в Arena AI среди open-weight моделей при запуске. Поддерживает мультимодальность (текст + изображения на входе, аудио на маленьких моделях) и 140+ языков, включая русский.

Главное в Gemma 4 — эффективность. 26B MoE активирует только 4 миллиарда параметров на запрос: скорость маленькой модели, качество большой. Контекст 256K токенов — целый репозиторий среднего размера.

Для локального запуска: E2B и E4B работают на обычном ноутбуке, 26B MoE — на игровой видеокарте с 12 ГБ VRAM. Всё доступно через Ollama и Hugging Face. Google проектировала Gemma 4 под агентные сценарии — многошаговые задачи и вызов инструментов модель тянет хорошо.

На Ofox.ai Gemma 4 пока не представлена как отдельная модель, но доступна через Gemini API. Для самостоятельного хостинга — скачивайте с Hugging Face, лицензия позволяет.

Qwen 3.5 и 3.6: линейка Alibaba на все случаи

Alibaba Cloud продолжает наращивать семейство Qwen. В линейке есть всё — от ультрадешёвых моделей для классификации до флагманов для сложных рассуждений.

Ключевые модели через Ofox.ai:

МодельПараметрыЦена (вход/выход)Контекст
Qwen 3.6 Plus$0.50/$3.00128K
Qwen 3.5 397B A17B397B (17B акт.)$0.55/$3.50128K
Qwen 3.5 122B A10B122B (10B акт.)$0.29/$2.29128K
Qwen 3.5 Flash$0.10/$0.40128K
Qwen Flash$0.022/$0.22128K

Qwen Flash за $0.022 на входе — одна из самых дешёвых моделей на рынке. При этом качество на русскоязычных задачах вполне рабочее: суммаризация, классификация, извлечение данных. Для массовых операций, где не нужна глубокая аналитика, Qwen Flash экономит бюджет в десятки раз по сравнению с GPT-5.4.

Qwen 3.5 397B — флагман линейки. Архитектура MoE с 17 миллиардами активных параметров из 397 миллиардов общих. По бенчмаркам конкурирует с GPT-5.4 Mini и Claude Sonnet 4.6, но стоит в 3–4 раза дешевле.

Подробнее о китайских моделях — в нашем обзоре Qwen, DeepSeek и MiniMax.

DeepSeek V3.2: бюджетный чемпион

DeepSeek V3.2 объединил чат и рассуждения в одной модели. Цена через Ofox.ai — $0.29/$0.43 за миллион токенов. Это в 10 раз дешевле GPT-5.4 и в 35 раз дешевле Claude Opus 4.6 на выходе.

При такой цене качество удивляет. На русскоязычных задачах DeepSeek V3.2 приближается к GPT-5.4 по генерации текста и обходит большинство моделей среднего сегмента. Чат-боты, обработка документов, генерация контента — работает.

Ограничения: модель слабее флагманов в сложных многошаговых рассуждениях и точном следовании длинным инструкциям. Для задач уровня «проанализируй 50-страничный контракт и найди противоречия» лучше взять Claude Opus 4.6 или GLM-5.1.

Подробный разбор — в руководстве по DeepSeek V3 API.

Meta Llama 4: рекордный контекст

Meta выпустила Llama 4 в апреле 2025 года. К 2026-му модель по-прежнему в строю — сотни приложений и исследовательских проектов работают на ней.

Линейка включает два основных варианта:

  • Llama 4 Scout — 17B активных параметров, 16 экспертов. Помещается на одну NVIDIA H100. Контекст до 10 миллионов токенов — рекорд среди open-weight моделей.
  • Llama 4 Maverick — 17B активных параметров, 128 экспертов. Более мощная версия для сложных задач.

Контекст в 10M токенов — не маркетинговая цифра. Scout обрабатывает документы объёмом в несколько книг за один запрос. Анализ юридических баз, обработка больших кодовых репозиториев — тут у Llama 4 нет конкурентов среди open-weight моделей.

Llama 4 не представлена на Ofox.ai напрямую, но доступна для самостоятельного развёртывания. Лицензия Meta позволяет коммерческое использование для компаний с менее чем 700 миллионами пользователей.

Сравнение цен: open-source vs проприетарные модели

Вот как выглядит ценовая картина через API в апреле 2026 года (цены за миллион токенов):

МодельВходВыходТип
GLM-4.7-Flashбесплатнобесплатноopen-source
Qwen Flash$0.022$0.22open-source
DeepSeek V3.2$0.29$0.43open-source
Qwen 3.5 Flash$0.10$0.40open-source
GLM-5$1.00$3.20open-source
GLM-5.1$1.40$4.40open-source
GPT-5.4 Mini$0.75$4.50проприетарная
Claude Sonnet 4.6$3.00$15.00проприетарная
GPT-5.4$2.50$15.00проприетарная
Claude Opus 4.6$5.00$25.00проприетарная

GLM-4.7-Flash — бесплатная модель на Ofox.ai. Для тестирования и прототипов — идеальная точка входа. Qwen Flash за $0.022 на входе — фактически бесплатна для большинства проектов: миллион токенов входа обойдётся в полтора рубля.

Подробнее о стратегии выбора моделей под задачу — в руководстве по мультимодельной стратегии.

Какую модель брать под задачу

Зависит от того, что вы строите.

Для кодинга и агентных задач — GLM-5.1. Третье место в Code Arena, MIT-лицензия, 200K контекст. Генерация и рефакторинг кода на уровне Claude Opus 4.6 за четверть цены.

Для массовой обработки текста — DeepSeek V3.2 или Qwen Flash. Классификация тысяч документов, суммаризация, извлечение данных. DeepSeek V3.2 за $0.29/$0.43 — баланс качества и цены. Qwen Flash за $0.022/$0.22 — когда допустима чуть меньшая точность.

Для локального запуска без GPU-сервера — Gemma 4. E2B и E4B работают на ноутбуке, 26B MoE — на игровой видеокарте. Apache 2.0 позволяет встраивать в коммерческие продукты. Для edge-устройств и мобильных приложений в 2026 году ничего лучше нет.

Для работы с огромными документами — Llama 4 Scout. 10 миллионов токенов контекста. Юридическая база, весь репозиторий целиком — ни одна другая open-source модель не даёт такого окна.

Для чат-бота на русском — Qwen 3.5 Plus или DeepSeek V3.2. Оба хорошо работают с русским, стоят в разы дешевле GPT-5.4. Подробное сравнение — в нашем тесте LLM для русского языка.

Как подключить из России

Прямой доступ к API OpenAI и Anthropic из России закрыт — санкции, блокировка платежей, региональные ограничения. С open-source моделями проще, но нюансы есть.

Самый быстрый путь — API-агрегатор. Через Ofox.ai доступны GLM-5, GLM-5.1, Qwen 3.5/3.6, DeepSeek V3.2 и ещё 80+ моделей. Один API-ключ, OpenAI-совместимый формат, оплата криптовалютой. Base URL: api.ofox.ai/v1. Работает с OpenAI SDK, Anthropic SDK и Google GenAI SDK — меняете только endpoint и ключ.

Если нужен полный контроль — самостоятельный хостинг. Gemma 4 и Llama 4 скачиваются с Hugging Face, запускаются через Ollama, vLLM или text-generation-inference. Для Gemma 4 26B MoE хватит одной видеокарты с 12 ГБ VRAM. GLM-5 с 744B параметрами требует кластер — это уже для компаний с инфраструктурой.

Третий вариант — облачные GPU. Vast.ai, RunPod, Lambda — арендуете сервер, разворачиваете модель. Для Llama 4 Scout достаточно одной H100. Аренда от $2/час, окупается при большом объёме запросов.

Что дальше

Год назад выбор open-source модели означал компромисс: дешевле, но хуже. Сейчас GLM-5.1 бьётся с Claude Opus 4.6 в кодинге, Gemma 4 работает на телефоне, а DeepSeek V3.2 стоит меньше двух рублей за миллион токенов.

Для России есть ещё один аргумент: MIT и Apache 2.0 не отзовут. Веса скачаны — они ваши. Никто не заблокирует доступ и не поднимет цены задним числом.

Начать проще всего с GLM-4.7-Flash (бесплатно) или DeepSeek V3.2 через Ofox.ai. Для кода — GLM-5.1. Для локального запуска — Gemma 4.