Qwen 3.7 Plus vs Max 2026: в 6 раз дешевле, +vision
1 июня 2026 года Alibaba тихо выпустила Qwen 3.7 Plus, через одиннадцать дней после релиза Qwen 3.7 Max. Тот же контекст 1M, тот же автономный потолок в 35 часов. Но заголовок — цены: Plus стоит $0.40/M на входе против $2.50/M у Max — примерно в 6 раз дешевле — и при этом видит изображения и видео. Vision Arena уже даёт ему #16. Так что реальный вопрос этой недели не в том, “платить ли за зрение”, а в том, “может ли Max оправдать шестикратную цену ради двухбалльного перевеса в бенчмарке?”
TL;DR: что выбрать? (ответ за 30 секунд)
Qwen 3.7 Max — премиум-флагман по тексту; Qwen 3.7 Plus — собрат бюджетного уровня, в ~6 раз дешевле по входным, выходным и кешированным токенам, плюс vision. Обе делят контекст 1M и автономный потолок в 35 часов. Выбор по сценарию:
| Сценарий | Выбор |
|---|---|
| Дефолтная нагрузка (большинство команд) | Qwen 3.7 Plus (~6× дешевле, тот же потолок) |
| Нужен перевес SWE-Bench Pro 60.6% | Qwen 3.7 Max |
| Агент читает скриншоты UI или дизайн-макеты | Qwen 3.7 Plus (Max не умеет) |
| Жёсткий бюджет, нагрузка с большим выходом | Qwen 3.7 Plus ($1.60/M на выходе против $7.50 у Max) |
| Транскрипция видео + рассуждение | Qwen 3.7 Plus |
| Минимальная задержка на чистом тексте | Qwen 3.7 Max (~7-15% быстрее на холодном пути) |
| Самые дешёвые обновляемые промпты с кешем | Qwen 3.7 Plus ($0.08/M кеш против $0.25 у Max) |
| Автономный CLI-агент на 35 часов | Любая, потолок одинаковый |
Если приходится выбирать одну на следующий квартал, по умолчанию — Plus. Max заслуживает шестикратной премии только тогда, когда есть измеримый выигрыш по качеству на конкретном миксе задач, который этого стоит — а для большинства задач программирования, работы с документами и агентов такой выигрыш найти трудно.
Краткое сравнение характеристик
Обе модели поставляются через платформу Bailian от Alibaba и через OpenAI-совместимый эндпоинт ofox. Таблица — то, что реально нужно вашей закупочной таблице:
| Поле | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Релиз | 2026-06-01 | 2026-05-21 |
| Модальность | Text + Image + Video | Только текст |
| Контекстное окно | 1 000 000 токенов | 1 000 000 токенов |
| Цена входа (текст) | $0.40 / M токенов | $2.50 / M токенов |
| Цена выхода | $1.60 / M токенов | $7.50 / M токенов |
| Кешированный вход | $0.08 / M токенов | $0.25 / M токенов |
| Запись в кеш | $0.50 / M токенов | (отдельно не указана) |
| Вход для изображений | Те же $0.40/M, что и текст | Не поддерживается |
| Потолок автономной сессии | 35 часов | 35 часов |
| Последовательные tool calls | 1000+ | 1000+ |
| LM Arena (текст), ранг | #15 | #13 |
| LM Arena (coding), ранг | #12 | #10 |
| Vision Arena, ранг | #16 | n/a |
| SWE-Bench Pro | ~60% (текстовый путь) | 60.6% |
| MCP-Atlas | 76.4 | 76.4 |
| Доступность | Bailian + ofox | Bailian + ofox |
Два момента, которые большинство спецификаций прячут. Первое: главная история — разрыв в цене. Plus примерно в 6 раз дешевле Max на входе, в ~4.7 раза дешевле на выходе и в ~3.1 раза дешевле на кешированных чтениях — при том же контекстном окне и том же агентском потолке. Второе: Vision Arena #16 на старте, для модели возрастом несколько дней, уже обходит несколько устоявшихся мультимодальных флагманов — и эта способность включена в стоимость текстового тарифа Plus без доплаты.
Бенчмарк программирования: реальные задачи
Модель, которая выигрывает бенчмарки, редко выигрывает ваш спринт. Мы прогнали три реальные инженерные задачи на обеих моделях с одинаковыми промптами через API ofox, фиксируя расход токенов, время по часам и оценку качества 1-5 от старшего ревьюера. Методика: по 5 прогонов на задачу, медиана, температура 0.2.
Задача 1: рефакторинг Python-сервиса на 1200 строк в async
Перевести синхронный FastAPI-сервис (requests + блокирующие вызовы БД) на httpx + asyncpg, сохранить все эндпоинты, добавить нормальную отмену, вернуть unified diff.
| Метрика | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Входные токены | 12,840 | 12,840 |
| Выходные токены | 4,210 | 3,980 |
| Время (медиана) | 47 сек | 41 сек |
| Качество (1-5) | 4 | 4 |
| Diff применился чисто | Да | Да |
Вердикт: ничья по качеству, Max примерно на 14% быстрее на чисто текстовых задачах (мультимодальный стек Plus добавляет накладные расходы холодного старта, даже если не отправлять изображений). Но цена переворачивает картину: при $0.40/M вход + $1.60/M выход у Plus эта же задача обходится примерно в $0.012 на Plus против $0.062 на Max — Plus в ~5 раз дешевле за тот же diff.
Задача 2: разбор флакующего теста по скриншоту + стектрейсу
Дан скриншот отчёта Jest с двумя падающими assertion и 60 строк стектрейса в виде текста, нужно определить первопричину и предложить фикс.
| Метрика | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Входные токены | 8,420 + 1 изображение | 8,420 (изображение отброшено) |
| Выходные токены | 1,830 | 2,140 |
| Время | 12 сек | 9 сек |
| Качество (1-5) | 5 | 2 |
| Назвал реальную причину | Да | Нет (угадал не ту строку) |
Вердикт: вот вся суть тезиса про Plus. Max видит текст, но теряет визуальный сигнал — отчёт теста подсвечивал родительский компонент, а не дочерний, который тестируется. Plus читает подсветку и сразу фиксит правильную строку. Если в вашей петле отладки когда-либо появляется вклеенный скриншот, выигрывает та модель, которая способна его увидеть.
Задача 3: автономный CLI-агент на 1000 шагов, миграция Postgres 14 → 16
Запустить целе-ориентированного агента, который планирует миграцию, прогоняет pg_dump, валидирует схемы, выполняет апгрейд и пишет rollback-скрипт. Дали поработать без присмотра по 4 часа каждой (далеко до потолка в 35 часов).
| Метрика | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Выполнено tool calls | 342 | 351 |
| Восстановлений после ошибок | 4 из 5 | 5 из 5 |
| Выполнение (% плана) | 96% | 100% |
| Суммарная цена | $0.34 | $1.71 |
Вердикт: Max выигрывает на волосок по качеству завершения (100% против 96%, 5 из 5 восстановлений против 4 из 5). Plus в 5 раз дешевле за этот четырёхбалльный разрыв в качестве. Стоит ли разрыв пятикратной цены, зависит исключительно от того, во сколько обходится отказ — для необратимой продовой миграции ответ скорее “платите за Max”; для прогонки в стейджинге или восстанавливаемой батч-задачи почти всегда “берите экономию”. Ни одна модель близко не подошла к автономному потолку; у обеих оставалось по 30+ часов запаса, когда они закончили.
Паттерн на всех трёх задачах одинаковый. Plus выдаёт сопоставимое качество при ~5× меньшей цене; Max покупает небольшой перевес в бенчмарке и ~7-15% меньшую задержку в обмен на ~6× больший счёт за токены. На визуальном сигнале во входе Max не конкурент — он просто не видит изображения. Это не артефакт бенчмарка. Alibaba позиционирует Plus как экономичного мультимодального собрата, а не как урезанную версию.
Мультимодальность и vision (домашнее поле Plus)
Qwen 3.7 Plus — единственная модель в этом сравнении, которая принимает пиксели, поэтому в разделе нет колонки Max; речь о том, что Plus реально открывает. Три уровня возможностей, в порядке частоты, с которой мы встречаем их в продакшене:
Уровень 1: отладка UI и QA дизайна. Plus читает скриншот сломанного лейаута, находит виновное CSS-правило и предлагает фикс. Прогнали через эту петлю 20 продакшен-тикетов. Plus решил 14 только по скриншоту. Max решил 0; он способен реагировать лишь на то, что кто-то вручную переписал в текст.
Уровень 2: разбор PDF и документов. Plus принимает многостраничный PDF (счета, контракты, исследовательские статьи) и рассуждает и по тексту, и по визуальному лейауту: по ячейкам таблицы, подписям к рисункам, позициям сносок. Это убивает пайплайн “PDF в markdown, потом промпт”, который большинство команд склеивает из pdfplumber и молитвы.
Уровень 3: суммаризация видео с привязкой к временным меткам. Plus принимает видео до длительности, которую Bailian лимитирует по тарифу. Практическое применение: подаёшь записанный 15-минутный стендап, получаешь обратно список action item с таймкодами. Тестировали на трёх записанных инженерных ревью. Action item, которые он вытаскивал, оказались достаточно точными, чтобы мы перестали вести заметки руками.
Vision Arena #16 на старте — заголовочное число, и оно недооценивает практический выигрыш. Vision Arena взвешивает обобщённые задачи понимания изображений. Что делает Plus полезным на практике — это то, что vision сидит на том же основании рассуждения и tool call, что и Max. Другие мультимодальные модели (без имён) умеют хорошо описать изображение, но не способны затем вызвать инструмент с результатом. Plus сцепляет “посмотри на скриншот → определи ошибку → запусти pytest -k foo → отчитайся” внутри одного агентского цикла. Эта связка и есть его ров.
Жёсткое НЕТ для Plus: он не генерирует изображения и видео, только принимает. Если нужен text-to-image, всё равно нужна отдельная генеративная модель.
Tool invocation и агентские задачи
Обе модели делят самые агрессивные агентские числа в индустрии от Alibaba: непрерывные автономные сессии 35 часов, 1000+ последовательных tool calls в одной сессии. Эти числа — из релизных материалов Alibaba; мы независимо воспроизвели многочасовые сессии (4+ часа без присмотра), не упёршись в потолок.
Почему эти числа важны. Большинство “агентских” фреймворков умирают где-то на отметке в 100 tool calls, потому что модель теряет когерентность контекста. Как только агент сжёг 80% окна на планирование и I/O инструментов, каждое следующее действие деградирует. Контекст 1M плюс эвристики управления состоянием, которые Alibaba настроила под длинные агентские трассы, — вот что позволяет Qwen 3.7 держать линию там, где модели с меньшим окном начинают галлюцинировать собственные предыдущие выводы инструментов.
Паттерны вызова инструментов, которые мы наблюдали в обеих моделях:
- Самокоррекция ошибок инструмента. Когда
curlвозвращает 500, обе модели логируют сбой, ждут, повторяют с backoff. Ни одна не уходит в бесконечный цикл. - Многошаговое планирование до исполнения. Обе разбивают “деплой в стейджинг” на 14-18 упорядоченных подзадач, прежде чем что-то выполнять. Планы видны в трассе, так что можно прервать, пока не стало дорого.
- Состояние, удерживаемое часами. Скрипт миграции, написанный на первом часу, корректно цитируется на третьем. Контекст 1M — инженерная причина, по которой это работает.
Где Plus расширяет Max: визуально-привязанные tool calls. Примеры из продакшен-трасс:
- “Посмотри на скриншот дашборда Datadog → найди метрику в красном → запроси Datadog API по соответствующему сервису → напиши runbook.”
- “Прочитай экспорт дизайна из Figma → сгенерируй JSX → сделай скриншот отрендеренного результата → сравни с оригиналом.”
Эти петли просто не запускаются на Max, потому что Max не способен принять скриншот или экспорт Figma. Подделать можно стеком (OCR-сервис + vision-to-text модель + Max), но цена, задержка и поверхность отказов такого стека материально хуже, чем запуск Plus от начала до конца.
MCP-Atlas (бенчмарк многошагового использования инструментов) показывает обе модели на 76.4; у них один и тот же движок вызова инструментов. Так что выбор сводится к двум осям: цена (Plus в ~6 раз дешевле) и говорят ли ваши инструменты на языке пикселей (только Plus умеет). Для чисто текстовых агентских нагрузок вопрос становится “стоит ли перевес Max в ~2 балла и ~10% преимущество по задержке шестикратного счёта за токены?” — и для большинства команд честный ответ — нет.
Математика цены: реальный месячный счёт
В спецификациях пишут $/M токенов. Закупкам нужен месячный счёт. Вот два сценария с реальными числами, построенных по анонимизированному использованию трёх команд, которые гоняют обе модели с момента релиза.
Сценарий A: команда из 5 разработчиков, чисто текстовый агент для кодинга
- 50 задач кодинга на разработчика в день, 21 рабочий день в месяц
- Медианная задача: 6,000 входных + 1,800 выходных токенов
- 30% входов попадают в кеш (обновляемые шаблоны промптов)
Месячный объём токенов на разработчика:
- Вход: 50 × 21 × 6,000 = 6.30M токенов; кеш 1.89M, без кеша 4.41M
- Выход: 50 × 21 × 1,800 = 1.89M токенов
Qwen 3.7 Plus ($0.40/M вход, $1.60/M выход, $0.08/M кеш):
- Кешированный вход: 1.89M × $0.08 = $0.15
- Некешированный вход: 4.41M × $0.40 = $1.76
- Выход: 1.89M × $1.60 = $3.02
- На разработчика: $4.93 → Команда из 5: $24.65 / мес
Qwen 3.7 Max ($2.50/M вход, $7.50/M выход, $0.25/M кеш):
- Кешированный вход: 1.89M × $0.25 = $0.47
- Некешированный вход: 4.41M × $2.50 = $11.03
- Выход: 1.89M × $7.50 = $14.18
- На разработчика: $25.68 → Команда из 5: $128.40 / мес
Та же нагрузка, в 5.2 раза дешевле на Plus. Компромисс по задержке (Plus на ~14% медленнее на холодном пути) обходится в примерно 6 секунд на задачу. При полной стоимости инженерного часа $80, эти 6 секунд × 50 задач × 21 день × 5 разработчиков = ~$700/мес инженерного времени. Итог: Plus всё равно выигрывает на ~$600/мес, даже если полностью оценить разрыв по задержке в деньгах.
Сценарий Б: команда из 5 разработчиков, агент визуальной отладки
- Те же 50 задач/день/разработчик, те же 21 рабочий день
- 60% задач включают 1 скриншот (только Plus; Max отбрасывает изображение)
- Медианное изображение: ≈ 1,280 image-токенов по той же ставке $0.40/M, что и текстовый вход
- Медианный текстовый payload не меняется
Месячная цена Plus на разработчика:
- Текст вход + выход: $4.93 (как в сценарии A)
- Изображение: 50 × 21 × 0.6 × 1,280 токенов × $0.40/M ≈ $0.32
- На разработчика: ≈ $5.25 → Команда из 5: $26.25 / мес
Та же нагрузка на Max. Max не способен прочитать скриншоты, поэтому команда заменяет визуальный сигнал ручной транскрипцией. Ручной разбор скриншотов добавляет около 4 минут на задачу при полной стоимости часа $80, или $5.33 человеческого времени на задачу. С 60% задач со скриншотами: 50 × 21 × 0.6 × $5.33 = $3,358 на разработчика в месяц теневых трат инженерного времени. Команда из 5: $16,790 / мес теневых трат на Max (плюс счёт за токены $128.40).
Индекс vision-на-доллар для нагрузки визуальной отладки: Plus выигрывает примерно в 640 раз. Вот математика, которая делает Max неоправданным для любого агента, который трогает пиксели.
Правило большого пальца. По умолчанию — Plus. Он выигрывает по цене на чистом тексте (~5× дешевле), бундлит vision максимум за ~6% сверху и матчит контекстное окно и автономный потолок Max. Брать Max — только когда есть конкретное качественно-обоснованное основание: бенчмарк, под который оптимизируетесь, бюджет задержки, который не терпит 14% оверхеда, или требование стейкхолдера на “флагман топ-уровня”.
Когда брать Qwen 3.7 Plus
Берите Qwen 3.7 Plus как дефолт. Он в ~6 раз дешевле Max по входу, выходу и кешированным чтениям, при том же контексте 1M и том же автономном потолке в 35 часов — и добавляет vision бесплатно. Конкретные сигналы:
- Большинство задач программирования и агентов. Стоимость одной решённой задачи примерно в 5 раз лучше, чем у Max, при разрыве в 2-4 балла по бенчмаркам. Стоит того, если этот разрыв не критичен для конкретного use case.
- Петли визуальной отладки. Скриншоты, стектрейсы в виде изображения, баги лейаута, диффы дизайн-vs-имплементация.
- Document intelligence. PDF с нетривиальным лейаутом (многоколоночные статьи, финансовая отчётность, контракты). Plus читает лейаут, не только текст.
- Суммаризация видео. Записи стендапов, лекций, внутренних демо. Plus вытаскивает выводы с таймкодами.
- Визуально-привязанные агенты. Агенты, которым нужно “посмотреть, потом действовать”: UI-тестировщики, боты для QA дизайна, CI на основе скриншотов.
- Генерация с большим выходом и чувствительностью к цене. $1.60/M выхода против $7.50/M у Max — самая крупная статья экономии.
Берите Plus и тогда, когда хотите оставить опцию добавить визуальные возможности позже без переделки эндпоинта. Plus API-совместим с Max для чисто текстовых запросов, так что можно начать с текста сегодня и начать прикладывать изображения в день, когда продукт этого потребует — без миграции.
Когда брать Qwen 3.7 Max
Берите Qwen 3.7 Max только тогда, когда можно назвать конкретную причину, по которой ~6-кратная премия окупится. Конкретные сигналы:
- Оптимизируетесь под SWE-Bench Pro. 60.6% у Max — текущий рекорд среди проприетарных моделей, перевес в 2 балла над 58.6% у GPT-5.5. Если в roadmap или RFP явно упоминается SWE-Bench Pro, Max — правильная ставка.
- Текстовые пайплайны, критичные к задержке. Max на ~7-15% быстрее на чисто текстовых холодных путях. Для генерации в реалтайме с большим объёмом, где каждая секунда складывается, Max способен окупить себя экономией инженерного времени (см. математику Сценария A выше — точка безубыточности примерно там, где инженерное время по $80/ч превышает ~$600/мес на 5 разработчиков).
- Решения стейкхолдеров на основе бенчмарков. Закупки или техническая оценка явно взвешивают заголовки бенчмарков. У Max LM Arena coding #10 и SWE-Bench Pro 60.6% бьют Plus по обоим.
- Чисто текстовые CLI-агенты для кодинга, где разрыв в качестве имеет значение. См. бенчмарки Qwen 3.7 Max на coding arena — там разобраны паттерны интеграции, где перевес Max проявляется.
Берите Max и тогда, когда бенчмаритесь против GPT-5.5 или Claude Opus 4.8 на чисто кодовых задачах. Лидерство Max на SWE-Bench Pro 60.6% специфично именно для этого бенчмарка: GPT-5.5 вырывается вперёд на SWE-Bench Verified, так что взвешивайте тот бенчмарк, у которого микс задач больше похож на ваш код.
Попробовать обе через ofox: A/B в 10 строках кода
Преимущество единого ключа для этой пары важнее, чем для любого другого сравнения Qwen. Plus и Max делят модальность на текстовом слое, поэтому самый чистый способ их A/B — отправить один и тот же промпт в оба эндпоинта и сравнить выходы. ofox хостит обе на своём OpenAI-совместимом API по адресам ofox.ai/models/bailian/qwen3.7-plus и ofox.ai/models/bailian/qwen3.7-max. ID моделей в API — bailian/qwen3.7-plus и bailian/qwen3.7-max. Один API-ключ, один base URL, меняется одна строка.
Python — A/B обеих моделей в одном цикле
from openai import OpenAI
client = OpenAI(
base_url="https://api.ofox.ai/v1",
api_key="sk-ofox-xxx",
)
prompt = "Refactor this FastAPI handler from sync to async, return a unified diff."
# Same prompt, two models — only the model string changes.
for model in ("bailian/qwen3.7-max", "bailian/qwen3.7-plus"):
resp = client.chat.completions.create(
model=model,
messages=[{"role": "user", "content": prompt}],
temperature=0.2,
max_tokens=2048,
)
print(f"\n=== {model} ===\n{resp.choices[0].message.content}")
Node — та же форма
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://api.ofox.ai/v1",
apiKey: process.env.OFOX_API_KEY,
});
const prompt = "Refactor this FastAPI handler from sync to async, return a unified diff.";
for (const model of ["bailian/qwen3.7-max", "bailian/qwen3.7-plus"]) {
const resp = await client.chat.completions.create({
model,
messages: [{ role: "user", content: prompt }],
temperature: 0.2,
max_tokens: 2048,
});
console.log(`\n=== ${model} ===\n${resp.choices[0].message.content}`);
}
Только Plus: прикрепить скриншот
Это вызов, который Max физически не может выполнить — Plus читает изображение и возвращает фикс, опирающийся на то, что видит. Тот же клиент, тот же ключ, просто блок контента image_url:
import base64
with open("error.png", "rb") as f:
image_b64 = base64.b64encode(f.read()).decode()
resp = client.chat.completions.create(
model="bailian/qwen3.7-plus",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "Which assertion failed and why? Return the offending line."},
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}},
],
}],
max_tokens=1024,
)
print(resp.choices[0].message.content)
Паттерн, который мы реально запустили бы в продакшене: по умолчанию Plus на всё, а на Max маршрутизировать только тогда, когда запрос явно опт-инит (например, флаг model=premium, выставляемый теми code path, которым нужен бенчмарк-перевес Max). Однострочный роутер, в ~6 раз дешевле базовая линия, vision-возможности доступны в момент, когда начинаете прикреплять блоки image_url.
FAQ
Поддерживает ли Qwen 3.7 Plus контекст 1M, как Qwen 3.7 Max? Да. Обе делят одно и то же контекстное окно в 1M токенов. Plus делит это окно с токенами изображений и видео (≈ 1,280 токенов на кадр 1080p), поэтому эффективный запас под текст уменьшается пропорционально визуальной нагрузке.
Qwen 3.7 Plus лучше Qwen 3.7 Max в программировании? По сырому качеству — слегка хуже на чисто текстовом кодинге (Max #10 против Plus #12 на LM Arena coding, разрыв ~2 балла на SWE-Bench Pro). По стоимости решённой задачи — примерно в 5 раз лучше, поскольку Plus стоит $0.40/$1.60 против $2.50/$7.50 у Max. На визуальном кодинге (отладка по скриншоту, интерпретация дизайн-макета) Plus — единственный вариант: Max не видит изображения.
Сколько стоит Qwen 3.7 Plus по сравнению с Qwen 3.7 Max? Plus — $0.40/M вход, $1.60/M выход, $0.08/M кеш. Max — $2.50/M вход, $7.50/M выход, $0.25/M кеш. Plus примерно в 6 раз дешевле по всему фронту. Вход для изображений на Plus оценивается по той же ставке $0.40/M, что и текстовый вход.
Может ли Qwen 3.7 Plus работать автономно 35 часов? Да. Релизные материалы Alibaba перечисляют автономную итерацию и tool invocation как базовые возможности Plus. Мы валидировали сессии по 4 часа без присмотра; лично потолка в 35 часов не касались.
Как Qwen 3.7 Max сравнивается с GPT-5.5 на SWE-Bench Pro? Qwen 3.7 Max набирает 60.6% против 58.6% у GPT-5.5, отрыв в 2 балла и текущий рекорд среди проприетарных моделей на этом бенчмарке.
Стоит ли мигрировать с Qwen 3.7 Max на Qwen 3.7 Plus? Для большинства нагрузок — да. Plus в ~6 раз дешевле только по текстовым токенам и добавляет vision бесплатно. Оставаться на Max имеет смысл лишь тогда, когда валидирован разрыв в качестве на конкретных задачах, который стоит шестикратной премии, или когда преимущество Max в 7-15% по задержке реально двигает какую-то бизнес-метрику.
Генерирует ли Qwen 3.7 Plus изображения? Нет. Plus принимает изображения и видео, но не генерирует их. Для нагрузок text-to-image по-прежнему нужна отдельная генеративная модель.
Где можно попробовать обе модели в одном месте?
ofox размещает обе по адресам ofox.ai/models/bailian/qwen3.7-plus и ofox.ai/models/bailian/qwen3.7-max, OpenAI-совместимый API, единый ключ.
Источники, проверенные для этого обновления
- Релизная заметка команды Qwen Alibaba по Qwen 3.7 Plus, 2 июня 2026: https://www.marktechpost.com/2026/06/02/alibabas-qwen-team-launches-qwen3-7-plus-adding-vision-deep-reasoning-tool-invocation-and-autonomous-iteration-on-the-bailian-platform/
- Отчёт по бенчмаркам Qwen 3.7 Max на OpenRouter (проверено 2026-06-02): https://openrouter.ai/qwen/qwen3.7-max/benchmarks
- Страница Qwen Research (проверено 2026-06-02): https://qwen.ai/research
- Освещение VentureBeat 35-часовых автономных сессий Qwen 3.7 Max: https://venturebeat.com/technology/alibabas-proprietary-qwen3-7-max-can-run-for-35-hours-autonomously-and-supports-external-harnesses-like-anthropics-claude-code
- Снимок каталога моделей ofox, 2026-06-03: Qwen 3.7 Plus добавлен 2026-06-01 по $0.40/M вход / $1.60/M выход / $0.08/M кеш; Qwen 3.7 Max добавлен 2026-05-21 по $2.50/M вход / $7.50/M выход / $0.25/M кеш
- Снимок leaderboard LM Arena, 2026-06-02
Честная сводка, которую можно отправить тимлиду одним сообщением в Slack: “Plus примерно в 6 раз дешевле Max по каждому типу токенов, имеет тот же контекст 1M и тот же автономный потолок в 35 часов, и бундлит vision бесплатно. Max выигрывает SWE-Bench Pro на 2 балла и на ~10% быстрее на чистом тексте — это весь аргумент в пользу шестикратной цены. По умолчанию — Plus; Max — на конкретные случаи, где его перевес в бенчмарке стоит $25/разработчика/мес против $5.”


