Open-source AI модели в 2026: Gemma 4, GLM-5, Qwen 3.5 — бесплатные альтернативы GPT и Claude
Что произошло с open-source моделями за последние два месяца
В феврале Zhipu AI выложила GLM-5 под MIT-лицензией — 744 миллиарда параметров, и модель сразу встала рядом с Claude Opus 4.5 и GPT-5.2 по кодингу. В апреле Google выпустила Gemma 4 под Apache 2.0 — четыре модели от 2B до 31B, причём 31B-версия заняла третье место в Arena AI среди всех open-weight моделей. Alibaba обновила Qwen до версии 3.5 с линейкой от 27B до 397B параметров. Meta продолжает развивать Llama 4 с контекстом до 10 миллионов токенов.
Два года назад open-source модели проигрывали проприетарным по всем фронтам. Сейчас GLM-5.1 стоит в тройке лидеров Code Arena рядом с Claude Opus 4.6, а Gemma 4 запускается на телефоне. Для разработчиков из России, где OpenAI и Anthropic закрыты санкциями, это не абстрактная новость — это рабочие инструменты.
GLM-5 и GLM-5.1: китайский флагман для кодинга
Zhipu AI (теперь Z.ai) выпустила GLM-5 11 февраля 2026 года. Модель использует архитектуру Mixture-of-Experts с 744 миллиардами параметров, контекстом 200K токенов и максимальным выводом 128K токенов.
Цифры на бенчмарках:
| Бенчмарк | GLM-5 | Claude Opus 4.6 | GPT-5.4 |
|---|---|---|---|
| SWE-Bench Verified | 77.8% | 80.8% | ~75% |
| BrowseComp | 62% | — | — |
| Terminal-Bench 2.0 | #1 | — | — |
10 апреля вышла GLM-5.1 — обновлённая версия, которая набрала 1530 Elo в Code Arena. Это третье место в мире, сразу после Claude Opus 4.6 (1548 и 1542 Elo). Первая open-weight модель, попавшая в тройку лидеров по коду.
Zhipu позиционирует GLM-5 как модель для «агентной инженерии» — длинных задач вроде отладки, рефакторинга и оркестрации инструментов. GLM-5.1 может автономно работать над одной задачей до восьми часов, пересматривая стратегию по ходу.
Для разработчиков из России GLM-5 интересна по двум причинам. MIT-лицензия — коммерческое использование без ограничений. И модель обучалась на Huawei Ascend, а не на NVIDIA, то есть Zhipu не зависит от экспортных ограничений на чипы.
Через Ofox.ai GLM-5 доступна за $1.00/$3.20 за миллион токенов (вход/выход), GLM-5.1 — за $1.40/$4.40. Для сравнения, Claude Opus 4.6 стоит $5/$25. Разница в 5–7 раз при сопоставимом качестве кода.
Google Gemma 4: open-source модель уровня флагмана
2 апреля 2026 года Google DeepMind выпустила Gemma 4 — четыре модели под Apache 2.0. Google и раньше открывала модели, но такого уровня — впервые.
Линейка:
| Модель | Параметры | Активные | Контекст | VRAM |
|---|---|---|---|---|
| Gemma 4 E2B | 2.3B | 2.3B | 32K | ~4 ГБ |
| Gemma 4 E4B | 4B | 4B | 32K | ~6 ГБ |
| Gemma 4 26B MoE | 26B | 4B | 256K | 8–12 ГБ |
| Gemma 4 31B Dense | 31B | 31B | 256K | 24+ ГБ |
31B Dense заняла третье место в Arena AI среди open-weight моделей при запуске. Поддерживает мультимодальность (текст + изображения на входе, аудио на маленьких моделях) и 140+ языков, включая русский.
Главное в Gemma 4 — эффективность. 26B MoE активирует только 4 миллиарда параметров на запрос: скорость маленькой модели, качество большой. Контекст 256K токенов — целый репозиторий среднего размера.
Для локального запуска: E2B и E4B работают на обычном ноутбуке, 26B MoE — на игровой видеокарте с 12 ГБ VRAM. Всё доступно через Ollama и Hugging Face. Google проектировала Gemma 4 под агентные сценарии — многошаговые задачи и вызов инструментов модель тянет хорошо.
На Ofox.ai Gemma 4 пока не представлена как отдельная модель, но доступна через Gemini API. Для самостоятельного хостинга — скачивайте с Hugging Face, лицензия позволяет.
Qwen 3.5 и 3.6: линейка Alibaba на все случаи
Alibaba Cloud продолжает наращивать семейство Qwen. В линейке есть всё — от ультрадешёвых моделей для классификации до флагманов для сложных рассуждений.
Ключевые модели через Ofox.ai:
| Модель | Параметры | Цена (вход/выход) | Контекст |
|---|---|---|---|
| Qwen 3.6 Plus | — | $0.50/$3.00 | 128K |
| Qwen 3.5 397B A17B | 397B (17B акт.) | $0.55/$3.50 | 128K |
| Qwen 3.5 122B A10B | 122B (10B акт.) | $0.29/$2.29 | 128K |
| Qwen 3.5 Flash | — | $0.10/$0.40 | 128K |
| Qwen Flash | — | $0.022/$0.22 | 128K |
Qwen Flash за $0.022 на входе — одна из самых дешёвых моделей на рынке. При этом качество на русскоязычных задачах вполне рабочее: суммаризация, классификация, извлечение данных. Для массовых операций, где не нужна глубокая аналитика, Qwen Flash экономит бюджет в десятки раз по сравнению с GPT-5.4.
Qwen 3.5 397B — флагман линейки. Архитектура MoE с 17 миллиардами активных параметров из 397 миллиардов общих. По бенчмаркам конкурирует с GPT-5.4 Mini и Claude Sonnet 4.6, но стоит в 3–4 раза дешевле.
Подробнее о китайских моделях — в нашем обзоре Qwen, DeepSeek и MiniMax.
DeepSeek V3.2: бюджетный чемпион
DeepSeek V3.2 объединил чат и рассуждения в одной модели. Цена через Ofox.ai — $0.29/$0.43 за миллион токенов. Это в 10 раз дешевле GPT-5.4 и в 35 раз дешевле Claude Opus 4.6 на выходе.
При такой цене качество удивляет. На русскоязычных задачах DeepSeek V3.2 приближается к GPT-5.4 по генерации текста и обходит большинство моделей среднего сегмента. Чат-боты, обработка документов, генерация контента — работает.
Ограничения: модель слабее флагманов в сложных многошаговых рассуждениях и точном следовании длинным инструкциям. Для задач уровня «проанализируй 50-страничный контракт и найди противоречия» лучше взять Claude Opus 4.6 или GLM-5.1.
Подробный разбор — в руководстве по DeepSeek V3 API.
Meta Llama 4: рекордный контекст
Meta выпустила Llama 4 в апреле 2025 года. К 2026-му модель по-прежнему в строю — сотни приложений и исследовательских проектов работают на ней.
Линейка включает два основных варианта:
- Llama 4 Scout — 17B активных параметров, 16 экспертов. Помещается на одну NVIDIA H100. Контекст до 10 миллионов токенов — рекорд среди open-weight моделей.
- Llama 4 Maverick — 17B активных параметров, 128 экспертов. Более мощная версия для сложных задач.
Контекст в 10M токенов — не маркетинговая цифра. Scout обрабатывает документы объёмом в несколько книг за один запрос. Анализ юридических баз, обработка больших кодовых репозиториев — тут у Llama 4 нет конкурентов среди open-weight моделей.
Llama 4 не представлена на Ofox.ai напрямую, но доступна для самостоятельного развёртывания. Лицензия Meta позволяет коммерческое использование для компаний с менее чем 700 миллионами пользователей.
Сравнение цен: open-source vs проприетарные модели
Вот как выглядит ценовая картина через API в апреле 2026 года (цены за миллион токенов):
| Модель | Вход | Выход | Тип |
|---|---|---|---|
| GLM-4.7-Flash | бесплатно | бесплатно | open-source |
| Qwen Flash | $0.022 | $0.22 | open-source |
| DeepSeek V3.2 | $0.29 | $0.43 | open-source |
| Qwen 3.5 Flash | $0.10 | $0.40 | open-source |
| GLM-5 | $1.00 | $3.20 | open-source |
| GLM-5.1 | $1.40 | $4.40 | open-source |
| GPT-5.4 Mini | $0.75 | $4.50 | проприетарная |
| Claude Sonnet 4.6 | $3.00 | $15.00 | проприетарная |
| GPT-5.4 | $2.50 | $15.00 | проприетарная |
| Claude Opus 4.6 | $5.00 | $25.00 | проприетарная |
GLM-4.7-Flash — бесплатная модель на Ofox.ai. Для тестирования и прототипов — идеальная точка входа. Qwen Flash за $0.022 на входе — фактически бесплатна для большинства проектов: миллион токенов входа обойдётся в полтора рубля.
Подробнее о стратегии выбора моделей под задачу — в руководстве по мультимодельной стратегии.
Какую модель брать под задачу
Зависит от того, что вы строите.
Для кодинга и агентных задач — GLM-5.1. Третье место в Code Arena, MIT-лицензия, 200K контекст. Генерация и рефакторинг кода на уровне Claude Opus 4.6 за четверть цены.
Для массовой обработки текста — DeepSeek V3.2 или Qwen Flash. Классификация тысяч документов, суммаризация, извлечение данных. DeepSeek V3.2 за $0.29/$0.43 — баланс качества и цены. Qwen Flash за $0.022/$0.22 — когда допустима чуть меньшая точность.
Для локального запуска без GPU-сервера — Gemma 4. E2B и E4B работают на ноутбуке, 26B MoE — на игровой видеокарте. Apache 2.0 позволяет встраивать в коммерческие продукты. Для edge-устройств и мобильных приложений в 2026 году ничего лучше нет.
Для работы с огромными документами — Llama 4 Scout. 10 миллионов токенов контекста. Юридическая база, весь репозиторий целиком — ни одна другая open-source модель не даёт такого окна.
Для чат-бота на русском — Qwen 3.5 Plus или DeepSeek V3.2. Оба хорошо работают с русским, стоят в разы дешевле GPT-5.4. Подробное сравнение — в нашем тесте LLM для русского языка.
Как подключить из России
Прямой доступ к API OpenAI и Anthropic из России закрыт — санкции, блокировка платежей, региональные ограничения. С open-source моделями проще, но нюансы есть.
Самый быстрый путь — API-агрегатор. Через Ofox.ai доступны GLM-5, GLM-5.1, Qwen 3.5/3.6, DeepSeek V3.2 и ещё 80+ моделей. Один API-ключ, OpenAI-совместимый формат, оплата криптовалютой. Base URL: api.ofox.ai/v1. Работает с OpenAI SDK, Anthropic SDK и Google GenAI SDK — меняете только endpoint и ключ.
Если нужен полный контроль — самостоятельный хостинг. Gemma 4 и Llama 4 скачиваются с Hugging Face, запускаются через Ollama, vLLM или text-generation-inference. Для Gemma 4 26B MoE хватит одной видеокарты с 12 ГБ VRAM. GLM-5 с 744B параметрами требует кластер — это уже для компаний с инфраструктурой.
Третий вариант — облачные GPU. Vast.ai, RunPod, Lambda — арендуете сервер, разворачиваете модель. Для Llama 4 Scout достаточно одной H100. Аренда от $2/час, окупается при большом объёме запросов.
Что дальше
Год назад выбор open-source модели означал компромисс: дешевле, но хуже. Сейчас GLM-5.1 бьётся с Claude Opus 4.6 в кодинге, Gemma 4 работает на телефоне, а DeepSeek V3.2 стоит меньше двух рублей за миллион токенов.
Для России есть ещё один аргумент: MIT и Apache 2.0 не отзовут. Веса скачаны — они ваши. Никто не заблокирует доступ и не поднимет цены задним числом.
Начать проще всего с GLM-4.7-Flash (бесплатно) или DeepSeek V3.2 через Ofox.ai. Для кода — GLM-5.1. Для локального запуска — Gemma 4.


