Бесплатные тарифы LLM API 2026: Gemini, xAI, DeepSeek, AWS — что подходит для разработки
TL;DR: В 2026 году настоящих «бесплатных навсегда» LLM API почти не осталось. Google Gemini убрал Pro-модели из free tier с апреля, AWS Bedrock даёт только разовый $200-стартер, xAI требует $5 платежа перед раздачей $150/мес. Реально щедрыми остались DeepSeek (5M токенов на регистрацию + копеечные платные тарифы) и OpenRouter с роутером бесплатных моделей. Для российских разработчиков выбор сужается ещё сильнее — половина этих сервисов недоступна без VPN и зарубежной карты.
Что значит «бесплатно» в 2026
Сначала разграничим три разных вещи, которые маркетологи одинаково называют free tier:
- Permanent free tier — модель остаётся бесплатной, пока вы укладываетесь в RPM/RPD-лимиты. Сейчас в этом классе только Gemini Flash/Flash-Lite и часть моделей на OpenRouter с суффиксом
:free. - Промо-кредиты при регистрации — единоразовый бонус на N долларов или N токенов, потом платный тариф. Сюда попадают DeepSeek (5M токенов), xAI ($25), AWS ($200 starter).
- Кредиты за условие — например, $150/мес у xAI за разрешение использовать ваши данные для обучения.
Сравнивать их в одной колонке бессмысленно. Permanent free tier работает для постоянной задачи: cron-бот, telegram-ассистент, что-то с предсказуемой нагрузкой. Промо-кредиты годятся для интенсивной недели прототипа, когда надо много экспериментов в короткий срок. Кредиты за условие имеют смысл только в open-source-проектах, где данные и так публичны.
Google Gemini API — Flash остался, Pro ушёл
С 1 апреля 2026 Google закрыл Gemini Pro для бесплатного тарифа. На free остались только Flash-семейство.
Текущая раскладка для бесплатного ключа:
| Модель | RPM | RPD |
|---|---|---|
| Gemini 2.5 Pro | — | — (только paid) |
| Gemini 3.1 Pro | — | — (только paid) |
| Gemini 2.5 Flash | 10 | 250 |
| Gemini 2.5 Flash-Lite | 15 | 1 000 |
| Gemini 3 Flash | (Flash-tier лимиты) | 1 500 RPD |
| Gemini 3.1 Flash-Lite | (Flash-Lite-tier лимиты) | 1 500 RPD |
RPD = requests per day, RPM = per minute. На практике 250 запросов/день Flash хватает для пет-проекта или внутреннего слак-бота на несколько сотрудников, но не для пользовательского трафика.
Сильные стороны:
- Мультимодальность включена сразу — Flash без доплаты ест картинки, PDF, аудио до часа.
- 1M-токеновый контекст даже у Flash-Lite. На бесплатном тарифе это уникум.
- Прямая интеграция с Google AI Studio для отладки промптов.
Где упрётесь:
- Без Pro приходится забыть про сложный reasoning и редактирование длинного кода. Flash хорош для классификации, summarization, простых ответов.
- Из России API недоступен без VPN на «правильную» страну (Германия, США, Япония работают; Турция и большая часть LatAm — нет).
- Для апгрейда нужна зарубежная карта с биллинговым адресом, совпадающим с Google Cloud аккаунтом.
xAI Grok — $25 на старт плюс $150/мес за обмен на данные
Sign-up даёт $25 в промо-кредитах, действуют 30 дней. Без покупок дальше — всё, окно закрылось.
Программа Data Sharing раздаёт $150/мес дополнительных кредитов, но с двумя условиями:
- Команда должна сначала потратить минимум $5 живых денег на API.
- xAI получает право использовать ваши запросы и ответы для обучения моделей.
Актуальные модели (Grok 4 и Grok 4.1 были retired 15 мая 2026 — апи-приложения, ссылающиеся на эти ID, нужно мигрировать):
- Grok 4.3 — флагман, релиз 30 апреля 2026, 1M контекст, нативный video input, $1.25 input / $2.50 output за 1M токенов.
- Grok 4.20 series —
grok-4.20-0309-reasoning,grok-4.20-0309-non-reasoning,grok-4.20-multi-agent-0309. Те же $1.25/$2.50, 1M контекст. - Grok 4.1 Fast — отдельная low-cost модель, $0.20 input / $0.50 output, 2M контекст.
Кому подойдёт:
- Разработчики, которые тестируют интеграции с X (бывший Twitter) — у Grok есть нативный доступ к актуальному контенту платформы, чего нет ни у кого другого.
- Open-source проекты и публичные туториалы, где данные и так публичны.
Кому категорически не подойдёт:
- Любая коммерческая разработка с NDA, проприетарным кодом или клиентскими данными.
- Команды, которые передают через API чувствительный текст (медицина, юриспруденция, финансы).
Карты российских банков не принимаются. Регистрация формально не блокируется, но при попытке пополнения нужна международная карта.
DeepSeek — 5M токенов и одни из самых дешёвых платных тарифов
На фоне остальных DeepSeek смотрится почти неприлично щедрым. При регистрации сразу падает 5 миллионов токенов бесплатных кредитов без привязки карты. Они работают на любой модели каталога — deepseek-v4-flash и deepseek-v4-pro.
Цены за пределами бесплатных кредитов (актуально на май 2026):
| Модель | Input (cache miss) | Output | Контекст |
|---|---|---|---|
deepseek-v4-flash | $0.14 / 1M | $0.28 / 1M | 1M токенов |
deepseek-v4-pro | $0.435 / 1M | $0.87 / 1M | 1M токенов |
Цены V4 Pro изначально шли с промо-скидкой 75% до 31 мая 2026, но 22 мая команда объявила, что скидка становится постоянной — указанные $0.435/$0.87 это и есть новая базовая ставка. Контекстное кэширование сбивает input до $0.0028/M на V4 Flash и $0.003625/M на V4 Pro (с 26 апреля 2026 cache hit price снижена до 1/10 от launch price) — повторяющийся system prompt в чат-боте стоит на порядок дешевле, чем на любом другом API.
Где DeepSeek прекрасен:
- Прототипирование с длинными промптами. 5M токенов на старт = десятки тысяч полноценных reasoning-запросов.
- Кодинг и анализ репозиториев — V4 Pro по бенчмаркам конкурирует с Claude Sonnet и GPT-5.4 в задачах на код.
- Дешёвый production после исчерпания кредитов.
Шероховатости:
- Веб-чат и API hostятся в Китае. Latency из РФ — 250–400 мс. Для batched workload это не критично, для интерактивного чата заметно.
- Оплата напрямую — через Alipay или WeChat Pay. Российские карты не привязать.
- TOS не запрещает использование из РФ, но и не гарантирует поддержку.
AWS Bedrock — никакого вечного free, $200 starter и всё
В Bedrock нет permanent free tier ни для одной модели. Платите с первого вызова. Бонус для новых AWS-аккаунтов — $200 starter credits ($100 при регистрации, $100 за выполнение guided tasks), но они растягиваются на все 200+ сервисов AWS, не только на Bedrock.
Цены на флагманы (апрель 2026, on-demand):
| Модель | Input | Output |
|---|---|---|
| Claude Opus 4.6 | $5 / 1M | $25 / 1M |
| Claude Sonnet 4.6 | $3 / 1M | $15 / 1M |
| Claude Haiku 4.5 | $1 / 1M | $5 / 1M |
| Llama 3.3 70B | $0.72 / 1M | $0.72 / 1M |
| Amazon Nova Micro | $0.035 / 1M | $0.14 / 1M |
Цены на Claude в Bedrock равны прямым ценам Anthropic — никакого скрытого дисконта. Llama 70B на Bedrock стоит на 201% дороже, чем у Together.ai ($2.65 vs $0.88) — это нужно держать в голове, прежде чем «класть всё в Bedrock ради единой биллинг-консоли».
Кому подходит free tier AWS:
- Командам, которые уже сидят на AWS и хотят попробовать модели без отдельного аккаунта в OpenAI/Anthropic.
- Тем, кто планирует production с provisioned throughput (15–40% off) или batch inference (50% off).
Кому не подойдёт:
- Индивидуальным разработчикам, которые хотят «потыкать» — $200 кредитов сгорят за пару экспериментов, а биллинг при невнимательности легко уйдёт в минус из-за смежных сервисов (S3, CloudWatch, VPC endpoints).
- Из России — AWS не принимает регистрацию с российских паспортов и карт с 2022 года. Workarounds существуют, но это серая зона.
Бонус: OpenRouter с роутером :free
Не входит в исходный список, но игнорировать нельзя. OpenRouter раздаёт доступ к open-source моделям с суффиксом :free:
- DeepSeek R1 и DeepSeek V4 Flash
- Llama 3.3 70B
- Qwen3 Coder с 1M контекста
- GPT-OSS 120B
- Gemma 3
Лимиты: 20 RPM, 50 запросов в день для аккаунтов с балансом меньше $10. После пополнения на $10 — лимит 1 000 запросов в день. То есть «настоящий бесплатный» режим требует разовой покупки кредитов, которые потом так и лежат на счету.
Чем полезно: единый OpenAI-совместимый API даёт быстро сравнить десяток моделей одной строкой кода, без отдельных регистраций в Together, Fireworks, Groq и т.д. Минус — модели с :free могут пропадать без предупреждения, в production не годятся.
Что выбрать под задачу
Грубая матрица, без претензии на исчерпывающую таксономию:
| Сценарий | Лучший бесплатный выбор |
|---|---|
| Telegram-бот для команды до 50 человек | Gemini 2.5 Flash (хватит 250 RPD) |
| Прототип RAG над корпоративной wiki | DeepSeek V4 Flash + 5M токенов |
| Анализ кодовой базы / refactoring | DeepSeek V4 Pro по промо-кредитам |
| Мультимодальный демо (картинки + текст) | Gemini Flash |
| Эксперименты с reasoning и tool use | xAI Grok 4.3 / 4.20 за $25 промо |
| Сравнение 5+ моделей одним API | OpenRouter :free (после $10 пополнения) |
| Прод-нагрузка любого масштаба | Ничего из этого. Платный тариф или агрегатор |
Доступ из России: что работает, что нет
| Сервис | Регистрация из РФ | Оплата российской картой | VPN обязателен |
|---|---|---|---|
| Google Gemini API | Нет | Нет | Да |
| xAI Grok | Формально да | Нет | Нет, но при апгрейде нужна международная карта |
| DeepSeek | Да | Нет (только Alipay/WeChat) | Нет |
| AWS Bedrock | Нет (с 2022) | Нет | Да + альтернативная личность |
| OpenRouter | Да | Нет, но есть варианты (см. ниже) | Зависит от провайдера |
Для апгрейда любого из западных сервисов с бесплатного на платный из РФ есть три практических пути:
- Карта банка третьей страны (Казахстан, Грузия, Армения, ОАЭ) — стабильно работает, но требует физического посещения для открытия счёта.
- Виртуальные карты (Pyypl, Wirex, отдельные крипто-карты) — работают непредсказуемо, многие сервисы научились их фильтровать.
- Шлюз с российским биллингом — оплата рублёвой картой / USDT / СБП, шлюз держит счёт на западном провайдере. Этот вариант снимает заодно и проблему с VPN.
Когда уходить с free на платное (и почему через агрегатор)
Free tier полезен ровно до момента, когда вы упёрлись в один из трёх лимитов:
- RPM/RPD не хватает на реальную нагрузку.
- Нужны модели, которых нет в бесплатном слое (Claude, GPT-5.4 Pro, Gemini Pro).
- Промо-кредиты закончились, а карты для прямой оплаты нет.
В этой точке выбор — либо собирать зоопарк аккаунтов и платёжных карт, либо подключаться через агрегатор. ofox.ai держит единый OpenAI-совместимый эндпоинт ко всем флагманам — Claude Opus 4.6/4.7, Sonnet 4.6, GPT-5.4 семейство и GPT-5.5, Gemini 3.5 Flash и 3.1 Pro Preview, Grok 4.20, DeepSeek V4 Flash/Pro, Qwen, Kimi, GLM, Llama — с оплатой рублями, USDT и через СБП. Free-моделей у агрегатора нет (это не его жанр), но цены на флагманы со скидкой 20%, на open-source — до 70%.
Практический сценарий: вы разрабатываете на бесплатном Gemini Flash и DeepSeek-кредитах, а когда уходите в продакшен или нужен Claude — переключаете один base_url в SDK и идёте через ofox. Код не меняется, потому что и Google, и Anthropic API уже мимикрируют под OpenAI-формат, и агрегатор отдаёт ровно тот же интерфейс.
Итог
«Бесплатный LLM API» в 2026 году читается уже не как маркетинговый слоган, а как договор с мелким шрифтом. Gemini Flash остаётся самым щедрым permanent-вариантом, но без Pro. DeepSeek даёт жирный стартовый кредит и при этом одни из самых дешёвых платных цен на рынке. xAI и AWS годятся «попробовать на полчаса», но не как полноценная площадка для разработки.
Для российской команды без зарубежной карты реалистичная конфигурация на сегодня выглядит так: DeepSeek закрывает почти всё, кроме мультимодальности, а Gemini Flash через VPN добивает оставшиеся 20% сценариев. На production переключайтесь через агрегатор с локальным биллингом — попытка тащить десяток платёжных карт и зоопарк аккаунтов окупится только при очень крупных объёмах.
Все ссылочные цены, лимиты и список моделей проверены на 28 мая 2026. Бесплатные тарифы меняются ежеквартально — перед запуском в прод сверьтесь с актуальной документацией провайдера.

