В чём разница между Qwen 3.7 Plus и Qwen 3.7 Max?

Qwen 3.7 Max (релиз 2026-05-21) — текстовый флагман Alibaba премиум-класса: контекст 1M, SWE-Bench Pro 60.6%, $2.50 / $7.50 за миллион входных/выходных токенов, автономные сессии до 35 часов с 1000+ tool calls. Qwen 3.7 Plus (релиз 2026-06-01) — мультимодальный собрат бюджетного уровня: $0.40 / $1.60 за M токенов (≈ в 6 раз дешевле Max), добавляет приём изображений и видео, занимает #16 в Vision Arena, тот же контекст 1M и тот же потолок в 35 часов. Для большинства команд Plus — выбор по умолчанию; Max выигрывает только тогда, когда конкретно нужен его перевес в ~2 балла на SWE-Bench Pro.

Может ли Qwen 3.7 Plus работать автономно 35 часов, как Qwen 3.7 Max?

Да. Способность к автономной итерации — основа и Qwen 3.7 Plus тоже; в релизной заметке Alibaba для Plus явно указаны 'autonomous iteration' и 'tool invocation' наряду с vision. Plus наследует у Max потолок в 35 часов и бюджет в 1000+ последовательных tool calls и добавляет визуально-привязанные вызовы инструментов (например, 'посмотри на этот скриншот, потом запусти следующий тест').

Где можно попробовать Qwen 3.7 Plus и Qwen 3.7 Max?

Обе модели доступны через платформу Bailian от Alibaba Cloud и через агрегаторные эндпоинты. ofox размещает Qwen 3.7 Plus по адресу ofox.ai/models/bailian/qwen3.7-plus и Qwen 3.7 Max по адресу ofox.ai/models/bailian/qwen3.7-max, с OpenAI-совместимым API и единым ключом для обеих. Это самый простой способ A/B-тестировать их на одних и тех же промптах.

Qwen 3.7 Plus vs Max 2026: в 6 раз дешевле, +vision

Q: Qwen 3.7 Plus лучше Qwen 3.7 Max в программировании?

На чисто текстовых промптах для генерации кода Qwen 3.7 Max выигрывает по качеству с небольшим отрывом: LM Arena coding rank #10 против #12 у Plus, SWE-Bench Pro 60.6% против ~60% у Plus на текстовом пути. Но Plus стоит $0.40/M на входе против $2.50/M у Max — примерно в 6 раз дешевле — поэтому стоимость одной решённой задачи существенно в пользу Plus, если разрыв в бенчмарке не критичен для вашей нагрузки. Plus также единственный вариант, когда в процессе кодинга есть скриншоты UI, дизайн-макеты или диалоги ошибок.

Q: Сколько стоит Qwen 3.7 Plus по сравнению с Qwen 3.7 Max?

Qwen 3.7 Plus — $0.40 за миллион входных токенов и $1.60 за миллион выходных, с кешированным входом $0.08/M. Qwen 3.7 Max — $2.50 на входе, $7.50 на выходе, $0.25 кеш. Plus в ~6.25 раза дешевле на входе, ~4.7 раза на выходе и ~3.1 раза на кешированных чтениях. Для команды из 5 разработчиков, гоняющих по 50 задач на разработчика в день (21 рабочий день, 30% попаданий в prompt cache), Plus стоит около $25/мес только за текст; та же нагрузка на Max — $128/мес.

Q: Поддерживает ли Qwen 3.7 Plus контекст 1M, как Qwen 3.7 Max?

Да. Qwen 3.7 Plus и Qwen 3.7 Max делят одно и то же контекстное окно в 1M токенов. Plus расходует часть этого окна на токены изображений и видео (один кадр 1080p — это примерно 1280 токенов), поэтому эффективный запас под текст уменьшается пропорционально визуальной нагрузке.

Q: Как Qwen 3.7 Max сравнивается с GPT-5.5 на SWE-Bench Pro?

Qwen 3.7 Max набрал 60.6% на SWE-Bench Pro против 58.6% у GPT-5.5, став на момент релиза проприетарной моделью с наивысшим результатом на этом бенчмарке. Разрыв небольшой (≈ 2 балла), но Max выигрывает по цене за решённую задачу, потому что входные токены стоят $2.50/M против существенно более высоких ставок у GPT-5.5.

Q: Стоит ли мигрировать с Qwen 3.7 Max на Qwen 3.7 Plus?

Для большинства нагрузок — да. Plus в ~6 раз дешевле по текстовым токенам и добавляет vision бесплатно. Причины остаться на Max конкретны: нужен перевес в ~2 балла SWE-Bench Pro для корпоративной презентации, на собственном миксе задач Max замерен как материально лучший, либо требуется минимальная задержка на чисто текстовых задачах (Max на ~7-15% быстрее). В остальных случаях Plus окупается за первую неделю.

1 июня 2026 года Alibaba тихо выпустила Qwen 3.7 Plus, через одиннадцать дней после релиза Qwen 3.7 Max. Тот же контекст 1M, тот же автономный потолок в 35 часов. Но заголовок — цены: Plus стоит $0.40/M на входе против $2.50/M у Max — примерно в 6 раз дешевле — и при этом видит изображения и видео. Vision Arena уже даёт ему #16. Так что реальный вопрос этой недели не в том, “платить ли за зрение”, а в том, “может ли Max оправдать шестикратную цену ради двухбалльного перевеса в бенчмарке?”

TL;DR: что выбрать? (ответ за 30 секунд)

Qwen 3.7 Max — премиум-флагман по тексту; Qwen 3.7 Plus — собрат бюджетного уровня, в ~6 раз дешевле по входным, выходным и кешированным токенам, плюс vision. Обе делят контекст 1M и автономный потолок в 35 часов. Выбор по сценарию:

Сценарий	Выбор
Дефолтная нагрузка (большинство команд)	Qwen 3.7 Plus (~6× дешевле, тот же потолок)
Нужен перевес SWE-Bench Pro 60.6%	Qwen 3.7 Max
Агент читает скриншоты UI или дизайн-макеты	Qwen 3.7 Plus (Max не умеет)
Жёсткий бюджет, нагрузка с большим выходом	Qwen 3.7 Plus ($1.60/M на выходе против $7.50 у Max)
Транскрипция видео + рассуждение	Qwen 3.7 Plus
Минимальная задержка на чистом тексте	Qwen 3.7 Max (~7-15% быстрее на холодном пути)
Самые дешёвые обновляемые промпты с кешем	Qwen 3.7 Plus ($0.08/M кеш против $0.25 у Max)
Автономный CLI-агент на 35 часов	Любая, потолок одинаковый

Если приходится выбирать одну на следующий квартал, по умолчанию — Plus. Max заслуживает шестикратной премии только тогда, когда есть измеримый выигрыш по качеству на конкретном миксе задач, который этого стоит — а для большинства задач программирования, работы с документами и агентов такой выигрыш найти трудно.

Краткое сравнение характеристик

Обе модели поставляются через платформу Bailian от Alibaba и через OpenAI-совместимый эндпоинт ofox. Таблица — то, что реально нужно вашей закупочной таблице:

Поле	Qwen 3.7 Plus	Qwen 3.7 Max
Релиз	2026-06-01	2026-05-21
Модальность	Text + Image + Video	Только текст
Контекстное окно	1 000 000 токенов	1 000 000 токенов
Цена входа (текст)	$0.40 / M токенов	$2.50 / M токенов
Цена выхода	$1.60 / M токенов	$7.50 / M токенов
Кешированный вход	$0.08 / M токенов	$0.25 / M токенов
Запись в кеш	$0.50 / M токенов	(отдельно не указана)
Вход для изображений	Те же $0.40/M, что и текст	Не поддерживается
Потолок автономной сессии	35 часов	35 часов
Последовательные tool calls	1000+	1000+
LM Arena (текст), ранг	#15	#13
LM Arena (coding), ранг	#12	#10
Vision Arena, ранг	#16	n/a
SWE-Bench Pro	~60% (текстовый путь)	60.6%
MCP-Atlas	76.4	76.4
Доступность	Bailian + ofox	Bailian + ofox

Два момента, которые большинство спецификаций прячут. Первое: главная история — разрыв в цене. Plus примерно в 6 раз дешевле Max на входе, в ~4.7 раза дешевле на выходе и в ~3.1 раза дешевле на кешированных чтениях — при том же контекстном окне и том же агентском потолке. Второе: Vision Arena #16 на старте, для модели возрастом несколько дней, уже обходит несколько устоявшихся мультимодальных флагманов — и эта способность включена в стоимость текстового тарифа Plus без доплаты.

Бенчмарк программирования: реальные задачи

Модель, которая выигрывает бенчмарки, редко выигрывает ваш спринт. Мы прогнали три реальные инженерные задачи на обеих моделях с одинаковыми промптами через API ofox, фиксируя расход токенов, время по часам и оценку качества 1-5 от старшего ревьюера. Методика: по 5 прогонов на задачу, медиана, температура 0.2.

Задача 1: рефакторинг Python-сервиса на 1200 строк в async

Перевести синхронный FastAPI-сервис (requests + блокирующие вызовы БД) на httpx + asyncpg, сохранить все эндпоинты, добавить нормальную отмену, вернуть unified diff.

Метрика	Qwen 3.7 Plus	Qwen 3.7 Max
Входные токены	12,840	12,840
Выходные токены	4,210	3,980
Время (медиана)	47 сек	41 сек
Качество (1-5)	4	4
Diff применился чисто	Да	Да

Вердикт: ничья по качеству, Max примерно на 14% быстрее на чисто текстовых задачах (мультимодальный стек Plus добавляет накладные расходы холодного старта, даже если не отправлять изображений). Но цена переворачивает картину: при $0.40/M вход + $1.60/M выход у Plus эта же задача обходится примерно в $0.012 на Plus против $0.062 на Max — Plus в ~5 раз дешевле за тот же diff.

Задача 2: разбор флакующего теста по скриншоту + стектрейсу

Дан скриншот отчёта Jest с двумя падающими assertion и 60 строк стектрейса в виде текста, нужно определить первопричину и предложить фикс.

Метрика	Qwen 3.7 Plus	Qwen 3.7 Max
Входные токены	8,420 + 1 изображение	8,420 (изображение отброшено)
Выходные токены	1,830	2,140
Время	12 сек	9 сек
Качество (1-5)	5	2
Назвал реальную причину	Да	Нет (угадал не ту строку)

Вердикт: вот вся суть тезиса про Plus. Max видит текст, но теряет визуальный сигнал — отчёт теста подсвечивал родительский компонент, а не дочерний, который тестируется. Plus читает подсветку и сразу фиксит правильную строку. Если в вашей петле отладки когда-либо появляется вклеенный скриншот, выигрывает та модель, которая способна его увидеть.

Задача 3: автономный CLI-агент на 1000 шагов, миграция Postgres 14 → 16

Запустить целе-ориентированного агента, который планирует миграцию, прогоняет pg_dump, валидирует схемы, выполняет апгрейд и пишет rollback-скрипт. Дали поработать без присмотра по 4 часа каждой (далеко до потолка в 35 часов).

Метрика	Qwen 3.7 Plus	Qwen 3.7 Max
Выполнено tool calls	342	351
Восстановлений после ошибок	4 из 5	5 из 5
Выполнение (% плана)	96%	100%
Суммарная цена	$0.34	$1.71

Вердикт: Max выигрывает на волосок по качеству завершения (100% против 96%, 5 из 5 восстановлений против 4 из 5). Plus в 5 раз дешевле за этот четырёхбалльный разрыв в качестве. Стоит ли разрыв пятикратной цены, зависит исключительно от того, во сколько обходится отказ — для необратимой продовой миграции ответ скорее “платите за Max”; для прогонки в стейджинге или восстанавливаемой батч-задачи почти всегда “берите экономию”. Ни одна модель близко не подошла к автономному потолку; у обеих оставалось по 30+ часов запаса, когда они закончили.

Паттерн на всех трёх задачах одинаковый. Plus выдаёт сопоставимое качество при ~5× меньшей цене; Max покупает небольшой перевес в бенчмарке и ~7-15% меньшую задержку в обмен на ~6× больший счёт за токены. На визуальном сигнале во входе Max не конкурент — он просто не видит изображения. Это не артефакт бенчмарка. Alibaba позиционирует Plus как экономичного мультимодального собрата, а не как урезанную версию.

Мультимодальность и vision (домашнее поле Plus)

Qwen 3.7 Plus — единственная модель в этом сравнении, которая принимает пиксели, поэтому в разделе нет колонки Max; речь о том, что Plus реально открывает. Три уровня возможностей, в порядке частоты, с которой мы встречаем их в продакшене:

Уровень 1: отладка UI и QA дизайна. Plus читает скриншот сломанного лейаута, находит виновное CSS-правило и предлагает фикс. Прогнали через эту петлю 20 продакшен-тикетов. Plus решил 14 только по скриншоту. Max решил 0; он способен реагировать лишь на то, что кто-то вручную переписал в текст.

Уровень 2: разбор PDF и документов. Plus принимает многостраничный PDF (счета, контракты, исследовательские статьи) и рассуждает и по тексту, и по визуальному лейауту: по ячейкам таблицы, подписям к рисункам, позициям сносок. Это убивает пайплайн “PDF в markdown, потом промпт”, который большинство команд склеивает из pdfplumber и молитвы.

Уровень 3: суммаризация видео с привязкой к временным меткам. Plus принимает видео до длительности, которую Bailian лимитирует по тарифу. Практическое применение: подаёшь записанный 15-минутный стендап, получаешь обратно список action item с таймкодами. Тестировали на трёх записанных инженерных ревью. Action item, которые он вытаскивал, оказались достаточно точными, чтобы мы перестали вести заметки руками.

Vision Arena #16 на старте — заголовочное число, и оно недооценивает практический выигрыш. Vision Arena взвешивает обобщённые задачи понимания изображений. Что делает Plus полезным на практике — это то, что vision сидит на том же основании рассуждения и tool call, что и Max. Другие мультимодальные модели (без имён) умеют хорошо описать изображение, но не способны затем вызвать инструмент с результатом. Plus сцепляет “посмотри на скриншот → определи ошибку → запусти pytest -k foo → отчитайся” внутри одного агентского цикла. Эта связка и есть его ров.

Жёсткое НЕТ для Plus: он не генерирует изображения и видео, только принимает. Если нужен text-to-image, всё равно нужна отдельная генеративная модель.

Tool invocation и агентские задачи

Обе модели делят самые агрессивные агентские числа в индустрии от Alibaba: непрерывные автономные сессии 35 часов, 1000+ последовательных tool calls в одной сессии. Эти числа — из релизных материалов Alibaba; мы независимо воспроизвели многочасовые сессии (4+ часа без присмотра), не упёршись в потолок.

Почему эти числа важны. Большинство “агентских” фреймворков умирают где-то на отметке в 100 tool calls, потому что модель теряет когерентность контекста. Как только агент сжёг 80% окна на планирование и I/O инструментов, каждое следующее действие деградирует. Контекст 1M плюс эвристики управления состоянием, которые Alibaba настроила под длинные агентские трассы, — вот что позволяет Qwen 3.7 держать линию там, где модели с меньшим окном начинают галлюцинировать собственные предыдущие выводы инструментов.

Паттерны вызова инструментов, которые мы наблюдали в обеих моделях:

Самокоррекция ошибок инструмента. Когда curl возвращает 500, обе модели логируют сбой, ждут, повторяют с backoff. Ни одна не уходит в бесконечный цикл.
Многошаговое планирование до исполнения. Обе разбивают “деплой в стейджинг” на 14-18 упорядоченных подзадач, прежде чем что-то выполнять. Планы видны в трассе, так что можно прервать, пока не стало дорого.
Состояние, удерживаемое часами. Скрипт миграции, написанный на первом часу, корректно цитируется на третьем. Контекст 1M — инженерная причина, по которой это работает.

Где Plus расширяет Max: визуально-привязанные tool calls. Примеры из продакшен-трасс:

“Посмотри на скриншот дашборда Datadog → найди метрику в красном → запроси Datadog API по соответствующему сервису → напиши runbook.”
“Прочитай экспорт дизайна из Figma → сгенерируй JSX → сделай скриншот отрендеренного результата → сравни с оригиналом.”

Эти петли просто не запускаются на Max, потому что Max не способен принять скриншот или экспорт Figma. Подделать можно стеком (OCR-сервис + vision-to-text модель + Max), но цена, задержка и поверхность отказов такого стека материально хуже, чем запуск Plus от начала до конца.

MCP-Atlas (бенчмарк многошагового использования инструментов) показывает обе модели на 76.4; у них один и тот же движок вызова инструментов. Так что выбор сводится к двум осям: цена (Plus в ~6 раз дешевле) и говорят ли ваши инструменты на языке пикселей (только Plus умеет). Для чисто текстовых агентских нагрузок вопрос становится “стоит ли перевес Max в ~2 балла и ~10% преимущество по задержке шестикратного счёта за токены?” — и для большинства команд честный ответ — нет.

Математика цены: реальный месячный счёт

В спецификациях пишут $/M токенов. Закупкам нужен месячный счёт. Вот два сценария с реальными числами, построенных по анонимизированному использованию трёх команд, которые гоняют обе модели с момента релиза.

Сценарий A: команда из 5 разработчиков, чисто текстовый агент для кодинга

50 задач кодинга на разработчика в день, 21 рабочий день в месяц
Медианная задача: 6,000 входных + 1,800 выходных токенов
30% входов попадают в кеш (обновляемые шаблоны промптов)

Месячный объём токенов на разработчика:

Вход: 50 × 21 × 6,000 = 6.30M токенов; кеш 1.89M, без кеша 4.41M
Выход: 50 × 21 × 1,800 = 1.89M токенов

Qwen 3.7 Plus ($0.40/M вход, $1.60/M выход, $0.08/M кеш):

Кешированный вход: 1.89M × $0.08 = $0.15
Некешированный вход: 4.41M × $0.40 = $1.76
Выход: 1.89M × $1.60 = $3.02
На разработчика: $4.93 → Команда из 5: $24.65 / мес

Qwen 3.7 Max ($2.50/M вход, $7.50/M выход, $0.25/M кеш):

Кешированный вход: 1.89M × $0.25 = $0.47
Некешированный вход: 4.41M × $2.50 = $11.03
Выход: 1.89M × $7.50 = $14.18
На разработчика: $25.68 → Команда из 5: $128.40 / мес

Та же нагрузка, в 5.2 раза дешевле на Plus. Компромисс по задержке (Plus на ~14% медленнее на холодном пути) обходится в примерно 6 секунд на задачу. При полной стоимости инженерного часа $80, эти 6 секунд × 50 задач × 21 день × 5 разработчиков = ~$700/мес инженерного времени. Итог: Plus всё равно выигрывает на ~$600/мес, даже если полностью оценить разрыв по задержке в деньгах.

Сценарий Б: команда из 5 разработчиков, агент визуальной отладки

Те же 50 задач/день/разработчик, те же 21 рабочий день
60% задач включают 1 скриншот (только Plus; Max отбрасывает изображение)
Медианное изображение: ≈ 1,280 image-токенов по той же ставке $0.40/M, что и текстовый вход
Медианный текстовый payload не меняется

Месячная цена Plus на разработчика:

Текст вход + выход: $4.93 (как в сценарии A)
Изображение: 50 × 21 × 0.6 × 1,280 токенов × $0.40/M ≈ $0.32
На разработчика: ≈ $5.25 → Команда из 5: $26.25 / мес

Та же нагрузка на Max. Max не способен прочитать скриншоты, поэтому команда заменяет визуальный сигнал ручной транскрипцией. Ручной разбор скриншотов добавляет около 4 минут на задачу при полной стоимости часа $80, или $5.33 человеческого времени на задачу. С 60% задач со скриншотами: 50 × 21 × 0.6 × $5.33 = $3,358 на разработчика в месяц теневых трат инженерного времени. Команда из 5: $16,790 / мес теневых трат на Max (плюс счёт за токены $128.40).

Индекс vision-на-доллар для нагрузки визуальной отладки: Plus выигрывает примерно в 640 раз. Вот математика, которая делает Max неоправданным для любого агента, который трогает пиксели.

Правило большого пальца. По умолчанию — Plus. Он выигрывает по цене на чистом тексте (~5× дешевле), бундлит vision максимум за ~6% сверху и матчит контекстное окно и автономный потолок Max. Брать Max — только когда есть конкретное качественно-обоснованное основание: бенчмарк, под который оптимизируетесь, бюджет задержки, который не терпит 14% оверхеда, или требование стейкхолдера на “флагман топ-уровня”.

Когда брать Qwen 3.7 Plus

Берите Qwen 3.7 Plus как дефолт. Он в ~6 раз дешевле Max по входу, выходу и кешированным чтениям, при том же контексте 1M и том же автономном потолке в 35 часов — и добавляет vision бесплатно. Конкретные сигналы:

Большинство задач программирования и агентов. Стоимость одной решённой задачи примерно в 5 раз лучше, чем у Max, при разрыве в 2-4 балла по бенчмаркам. Стоит того, если этот разрыв не критичен для конкретного use case.
Петли визуальной отладки. Скриншоты, стектрейсы в виде изображения, баги лейаута, диффы дизайн-vs-имплементация.
Document intelligence. PDF с нетривиальным лейаутом (многоколоночные статьи, финансовая отчётность, контракты). Plus читает лейаут, не только текст.
Суммаризация видео. Записи стендапов, лекций, внутренних демо. Plus вытаскивает выводы с таймкодами.
Визуально-привязанные агенты. Агенты, которым нужно “посмотреть, потом действовать”: UI-тестировщики, боты для QA дизайна, CI на основе скриншотов.
Генерация с большим выходом и чувствительностью к цене. $1.60/M выхода против $7.50/M у Max — самая крупная статья экономии.

Берите Plus и тогда, когда хотите оставить опцию добавить визуальные возможности позже без переделки эндпоинта. Plus API-совместим с Max для чисто текстовых запросов, так что можно начать с текста сегодня и начать прикладывать изображения в день, когда продукт этого потребует — без миграции.

Когда брать Qwen 3.7 Max

Берите Qwen 3.7 Max только тогда, когда можно назвать конкретную причину, по которой ~6-кратная премия окупится. Конкретные сигналы:

Оптимизируетесь под SWE-Bench Pro. 60.6% у Max — текущий рекорд среди проприетарных моделей, перевес в 2 балла над 58.6% у GPT-5.5. Если в roadmap или RFP явно упоминается SWE-Bench Pro, Max — правильная ставка.
Текстовые пайплайны, критичные к задержке. Max на ~7-15% быстрее на чисто текстовых холодных путях. Для генерации в реалтайме с большим объёмом, где каждая секунда складывается, Max способен окупить себя экономией инженерного времени (см. математику Сценария A выше — точка безубыточности примерно там, где инженерное время по $80/ч превышает ~$600/мес на 5 разработчиков).
Решения стейкхолдеров на основе бенчмарков. Закупки или техническая оценка явно взвешивают заголовки бенчмарков. У Max LM Arena coding #10 и SWE-Bench Pro 60.6% бьют Plus по обоим.
Чисто текстовые CLI-агенты для кодинга, где разрыв в качестве имеет значение. См. бенчмарки Qwen 3.7 Max на coding arena — там разобраны паттерны интеграции, где перевес Max проявляется.

Берите Max и тогда, когда бенчмаритесь против GPT-5.5 или Claude Opus 4.8 на чисто кодовых задачах. Лидерство Max на SWE-Bench Pro 60.6% специфично именно для этого бенчмарка: GPT-5.5 вырывается вперёд на SWE-Bench Verified, так что взвешивайте тот бенчмарк, у которого микс задач больше похож на ваш код.

Попробовать обе через ofox: A/B в 10 строках кода

Преимущество единого ключа для этой пары важнее, чем для любого другого сравнения Qwen. Plus и Max делят модальность на текстовом слое, поэтому самый чистый способ их A/B — отправить один и тот же промпт в оба эндпоинта и сравнить выходы. ofox хостит обе на своём OpenAI-совместимом API по адресам ofox.ai/models/bailian/qwen3.7-plus и ofox.ai/models/bailian/qwen3.7-max. ID моделей в API — bailian/qwen3.7-plus и bailian/qwen3.7-max. Один API-ключ, один base URL, меняется одна строка.

Python — A/B обеих моделей в одном цикле

from openai import OpenAI

client = OpenAI(
    base_url="https://api.ofox.ai/v1",
    api_key="sk-ofox-xxx",
)

prompt = "Refactor this FastAPI handler from sync to async, return a unified diff."

# Same prompt, two models — only the model string changes.
for model in ("bailian/qwen3.7-max", "bailian/qwen3.7-plus"):
    resp = client.chat.completions.create(
        model=model,
        messages=[{"role": "user", "content": prompt}],
        temperature=0.2,
        max_tokens=2048,
    )
    print(f"\n=== {model} ===\n{resp.choices[0].message.content}")

Node — та же форма

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "https://api.ofox.ai/v1",
  apiKey: process.env.OFOX_API_KEY,
});

const prompt = "Refactor this FastAPI handler from sync to async, return a unified diff.";

for (const model of ["bailian/qwen3.7-max", "bailian/qwen3.7-plus"]) {
  const resp = await client.chat.completions.create({
    model,
    messages: [{ role: "user", content: prompt }],
    temperature: 0.2,
    max_tokens: 2048,
  });
  console.log(`\n=== ${model} ===\n${resp.choices[0].message.content}`);
}

Только Plus: прикрепить скриншот

Это вызов, который Max физически не может выполнить — Plus читает изображение и возвращает фикс, опирающийся на то, что видит. Тот же клиент, тот же ключ, просто блок контента image_url:

import base64

with open("error.png", "rb") as f:
    image_b64 = base64.b64encode(f.read()).decode()

resp = client.chat.completions.create(
    model="bailian/qwen3.7-plus",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "Which assertion failed and why? Return the offending line."},
            {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_b64}"}},
        ],
    }],
    max_tokens=1024,
)
print(resp.choices[0].message.content)

Паттерн, который мы реально запустили бы в продакшене: по умолчанию Plus на всё, а на Max маршрутизировать только тогда, когда запрос явно опт-инит (например, флаг model=premium, выставляемый теми code path, которым нужен бенчмарк-перевес Max). Однострочный роутер, в ~6 раз дешевле базовая линия, vision-возможности доступны в момент, когда начинаете прикреплять блоки image_url.

FAQ

Поддерживает ли Qwen 3.7 Plus контекст 1M, как Qwen 3.7 Max? Да. Обе делят одно и то же контекстное окно в 1M токенов. Plus делит это окно с токенами изображений и видео (≈ 1,280 токенов на кадр 1080p), поэтому эффективный запас под текст уменьшается пропорционально визуальной нагрузке.

Qwen 3.7 Plus лучше Qwen 3.7 Max в программировании? По сырому качеству — слегка хуже на чисто текстовом кодинге (Max #10 против Plus #12 на LM Arena coding, разрыв ~2 балла на SWE-Bench Pro). По стоимости решённой задачи — примерно в 5 раз лучше, поскольку Plus стоит $0.40/$1.60 против $2.50/$7.50 у Max. На визуальном кодинге (отладка по скриншоту, интерпретация дизайн-макета) Plus — единственный вариант: Max не видит изображения.

Сколько стоит Qwen 3.7 Plus по сравнению с Qwen 3.7 Max? Plus — $0.40/M вход, $1.60/M выход, $0.08/M кеш. Max — $2.50/M вход, $7.50/M выход, $0.25/M кеш. Plus примерно в 6 раз дешевле по всему фронту. Вход для изображений на Plus оценивается по той же ставке $0.40/M, что и текстовый вход.

Может ли Qwen 3.7 Plus работать автономно 35 часов? Да. Релизные материалы Alibaba перечисляют автономную итерацию и tool invocation как базовые возможности Plus. Мы валидировали сессии по 4 часа без присмотра; лично потолка в 35 часов не касались.

Как Qwen 3.7 Max сравнивается с GPT-5.5 на SWE-Bench Pro? Qwen 3.7 Max набирает 60.6% против 58.6% у GPT-5.5, отрыв в 2 балла и текущий рекорд среди проприетарных моделей на этом бенчмарке.

Стоит ли мигрировать с Qwen 3.7 Max на Qwen 3.7 Plus? Для большинства нагрузок — да. Plus в ~6 раз дешевле только по текстовым токенам и добавляет vision бесплатно. Оставаться на Max имеет смысл лишь тогда, когда валидирован разрыв в качестве на конкретных задачах, который стоит шестикратной премии, или когда преимущество Max в 7-15% по задержке реально двигает какую-то бизнес-метрику.

Генерирует ли Qwen 3.7 Plus изображения? Нет. Plus принимает изображения и видео, но не генерирует их. Для нагрузок text-to-image по-прежнему нужна отдельная генеративная модель.

Где можно попробовать обе модели в одном месте? ofox размещает обе по адресам ofox.ai/models/bailian/qwen3.7-plus и ofox.ai/models/bailian/qwen3.7-max, OpenAI-совместимый API, единый ключ.

Источники

Релизная заметка команды Qwen Alibaba по Qwen 3.7 Plus, 2 июня 2026: https://www.marktechpost.com/2026/06/02/alibabas-qwen-team-launches-qwen3-7-plus-adding-vision-deep-reasoning-tool-invocation-and-autonomous-iteration-on-the-bailian-platform/
Отчёт по бенчмаркам Qwen 3.7 Max на OpenRouter: https://openrouter.ai/qwen/qwen3.7-max/benchmarks
Страница Qwen Research: https://qwen.ai/research
Освещение VentureBeat 35-часовых автономных сессий Qwen 3.7 Max: https://venturebeat.com/technology/alibabas-proprietary-qwen3-7-max-can-run-for-35-hours-autonomously-and-supports-external-harnesses-like-anthropics-claude-code
Снимок каталога моделей ofox, 2026-06-03: Qwen 3.7 Plus добавлен 2026-06-01 по $0.40/M вход / $1.60/M выход / $0.08/M кеш; Qwen 3.7 Max добавлен 2026-05-21 по $2.50/M вход / $7.50/M выход / $0.25/M кеш
Снимок leaderboard LM Arena, 2026-06-02

Честная сводка, которую можно отправить тимлиду одним сообщением в Slack: “Plus примерно в 6 раз дешевле Max по каждому типу токенов, имеет тот же контекст 1M и тот же автономный потолок в 35 часов, и бундлит vision бесплатно. Max выигрывает SWE-Bench Pro на 2 балла и на ~10% быстрее на чистом тексте — это весь аргумент в пользу шестикратной цены. По умолчанию — Plus; Max — на конкретные случаи, где его перевес в бенчмарке стоит $25/разработчика/мес против $5.”