苹果第三代基础模型解读:WWDC 2026 之后,开发者真正要看的几件事

苹果第三代基础模型解读:WWDC 2026 之后,开发者真正要看的几件事

摘要 — 2026 年 6 月 8 日,苹果发布了第三代基础模型,同步重新命名了 “Siri AI”。五个模型。最亮眼的是 200 亿参数稀疏端侧模型(AFM 3 Core Advanced),每个 prompt 只激活 1–4B 参数,背后用的是苹果研究院称为 Instruction-Following Pruning 的技术。另一条更安静、但对开发者更重要的消息:苹果最强的云端模型 AFM 3 Cloud Pro 跑在 Google Cloud 中的 NVIDIA GPU 上,并使用 Google Gemini 前沿模型的输出做精调。苹果坚持这模型是自家的;苹果高管也很小心地区分”使用 Gemini 训练”和”就是 Gemini”。把端侧模型暴露给任意 Swift app 的 Foundation Models 框架,现在支持图像输入。所有这些在欧盟的 iPhone/iPad 和中国大陆首发时都用不了。

五模型矩阵

苹果的研究博客明确点名五个不同模型。这次命名比 2024 年的 “AFM-on-device / AFM-server” 二元组更有条理,也透露出苹果希望开发者怎么理解这套堆栈:端侧两层、Private Cloud Compute 三层。

模型运行位置规模单次激活角色
AFM 3 Core端侧3B(稠密)3B轻量文本、路由、快速 NLU
AFM 3 Core Advanced端侧20B(稀疏)1–4B/prompt新 Siri / 听写 / TTS;图像理解
AFM 3 CloudPrivate Cloud Compute未公布云端主力文本 / 图像理解
ADM 3 CloudPrivate Cloud Compute未公布图像生成(Image Playground、Reframe、Extend、Cleanup)
AFM 3 Cloud ProGoogle Cloud 中的 NVIDIA GPU(Private Cloud Compute 扩展)未公布复杂推理、Agent 工具调用

云端三个模型的参数量苹果一个都没公布。只有端侧两个模型披露了规模。

20B 稀疏模型,以及它为什么重要

技术上最有意思的是 AFM 3 Core Advanced。它是一个 200 亿参数的模型,能装进手机、跑在手机里——靠的是单次激活不超过约 4B 参数。

诀窍是 Instruction-Following Pruning(IFP),苹果研究院 2025 年 1 月在 arXiv 论文 里首次发表。思路:与其把稀疏当作训练时设定好的静态结构决策,不如让一个小预测器读取 prompt,为这次请求动态选择要激活的 FFN 矩阵行和列。论文的核心结果:他们的 3B 激活模型在数学和编程任务上比 3B dense 基线高 5–8 个绝对分,并追平 9B dense 模型的表现。也就是说,同样的 3B 激活算力,买到了 9B 级别的质量。

进到生产模型,故事变成内存层面的:苹果把完整模型放在闪存(NAND)里,把一小撮”始终激活的共享 expert”留在 DRAM,只在预测器选中时才把对应 expert 调进 DRAM。这就是 20B 模型能塞进端侧、又不烧电池的方式。

直白说:苹果给 iPhone 装上了第一个面向消费者大规模量产的动态稀疏 LLM。它不是经典意义上的 MoE(没有学到的 router 在每个 token 上选 K-of-N expert),但是近亲——而且工程落地是首次。

苹果没有做的事:没有把 AFM 3 Core Advanced 拉去和 GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Qwen 3.7 或 Llama 4 比。所有对比都是和苹果自家 2025 年基线比。下面的评测数据,应该被读作代际进步的证据,不是竞品排名。

苹果的人工评测到底说了什么

苹果的评测方法是盲测情况下与上一代 AFM 的两两人工偏好对比。下面是研究博客里逐字摘出来的数字:

评测新模型偏好率2025 基线偏好率
文本(AFM 3 Core,端侧)45.6%23.3%
文本(AFM 3 Cloud)64.7%8.7%
图像理解(AFM 3 Core)>61%
图像理解(AFM 3 Cloud)37.8%9.6%
听写总体质量(AFM 3 Core Advanced)44.7%17.6%

Cloud Pro 相对 Cloud 在文本上多 +10% 相对偏好,数学上多 +14%,图像理解上多 +14%

新端侧 TTS 的 Mean Opinion Score:

嗓音当前 TTSAFM 3 Core Advanced
通用3.874.15
对话式3.824.24

引用这些数字时有两个 caveat 必须记住:

  1. 没有第三方基准。没有 MMLU、没有 SWE-bench、没有 GPQA。苹果公布的所有数字都是对 2025 基线的偏好对比。
  2. 两两偏好评测对技术任务来说是粗的。它衡量的是”人类是不是更喜欢这个答案”,对聊天很说明问题,对代码和推理说服力弱。

Gemini 之争:哪些是事实

苹果和 Google 的合作产生了两条平行叙事,外界报道里一直没对齐。下面是两位苹果高管的原话:

“我们使用的 Google Assistant 数量是零。” — Craig Federighi,软件工程高级副总裁(9to5Mac

“所有这些模型都是专为 Apple Silicon 定制构建,使用专有数据训练,并使用 Gemini 前沿模型的输出进行精调。” — Amar Subramanya,苹果 AI 副总裁(CNBC

调和后:苹果没有在生产环境跑 Gemini 服务 Apple Intelligence。苹果确实把 Gemini 的输出当作后训练(蒸馏式精调)的一部分。具体到 AFM 3 Cloud Pro,多家报道描述了更深的 Google 参与——Gemini 衍生的训练基础设施、苹果负责预训练和后训练、NVIDIA 提供推理。苹果没有反驳这个说法,但也没在台上主动讲。

诚实的总结:Gemini 是教师信号,不是运行时模型。 这是 2026 年一个真实且在扩张的模式——前沿实验室训教师模型,下游玩家做蒸馏——而苹果是公开采用这种模式的最大分发渠道。

Private Cloud Compute,现在跑在 Google 数据中心的 NVIDIA 上

苹果 Private Cloud Compute(PCC)2024 年上线时拿出了一套挺猛的安全架构:运行被审计代码的 Apple Silicon 服务器,加密保证用户数据连苹果自己也碰不到。2026 年的扩展是个意外:PCC 现在也跑在 Google Cloud 内部托管的 NVIDIA GPU 上,苹果说同样的数据处理保证依然适用。

两个相关细节值得标出:

  • 为什么用 Google 的数据中心? 报道显示苹果先试图用自家 PCC 硬件跑新的 Cloud Pro 模型,结果太慢。Google Cloud 上的 NVIDIA 容量是最后跑通的方案。
  • 为什么主题演讲里一句没提? 苹果 keynote 提了 NVIDIA,没提 Google。Google 只出现在研究博客和事后的高管采访里。苹果想让你听到的品牌故事是”苹果模型、NVIDIA 硬件、苹果隐私”。完整的供应链比这更纠缠。

对评估苹果隐私承诺的开发者来说,工程实质是加密验证链路,不是 GPU 的物理位置。底层挪到 Google Cloud 上的 NVIDIA 并不打破这一点——但确实意味着信任模型现在涉及更多供应商。

Foundation Models 框架:2026 加了什么

这是发布会里报道最少、但和开发者关系最直接的部分。

Foundation Models 框架在 2025 年首次推出,是一个 Swift API,让任何第三方 app 都能直接调用苹果端侧约 3B 的模型——不需要 API key、不需要网络、按 token 没有任何成本。2026 的更新加了 图像输入:开发者现在可以把图像和文本一起传给端侧模型,让端侧视觉任务成为可能(给照片配文、从收据里提取结构化数据、识别 UI 元素),全程不走云端。

框架擅长的:

  • 结构化输出(强类型 Swift 值,不是纯文本)
  • 工具调用 / function calling
  • 隐私敏感的嵌入式智能(笔记摘要、端侧搜索、智能建议)
  • 离线可靠性(不依赖网络)

框架按设计不擅长的:

  • 通用知识问答(它不是 chatbot 后端)
  • 任何需要最新世界知识的场景
  • 需要前沿推理、超长上下文或多步 Agent 工具调用的任务

对一个 2026 年秋天发布的 iOS app,现实的模式是混合:端侧任务用 Foundation Models 框架,因为快、免费、离线;其他都 fallback 到云端模型。 这种 fallback 路径就是多服务商网关(包括 ofox.ai)发挥作用的地方——你希望 OpenAI/Anthropic/Google/Qwen/DeepSeek 都藏在同一个 API 后面,这样可以切换服务商而不用重新发版。

哪些地区首发用不上

地理限制比苹果以往的 AI 发布更严:

  • 🇪🇺 欧盟:Siri AI 在 iPhone 和 iPad 上首发可用。Mac、Apple Watch、Vision Pro 包含在内。苹果给出的理由是 DMA 合规工作仍在推进。
  • 🇨🇳 中国大陆:所有 Apple Intelligence,包括 Siri AI,等待监管批准前都可用。
  • 硬件门槛:iPhone 16 系列、iPhone 15 Pro / 15 Pro Max、搭载 A17 Pro 的 iPad mini、M1 或更新的 iPad、M1 或更新的 Mac、Apple Vision Pro。Apple Watch 上 watchOS 27 支持 Series 10、Series 11、Ultra 2、Ultra 3、SE 3——Watch 端 Apple Intelligence 还需要配对 iPhone 15 Pro / Pro Max 或更新机型。
  • 上线节奏:Siri AI 2026 年晚些时候以 beta 形式先支持英语,32 个支持的语言地区会逐步加入。语种覆盖英语(美 / 英 / 澳 / 印)、PFIGSCJK(葡 / 法 / 意 / 德 / 西 / 中 / 日 / 韩)、DNNSTV(丹 / 荷 / 挪 / 瑞 / 土 / 越)、AFIHHMPRTU(阿 / 芬 / 印尼 / 希 / 印地 / 马来 / 波 / 俄 / 泰 / 乌克兰)。

欧盟/中国的缺口意味着 Apple Intelligence 在地理上正式成为部分产品——同样的硬件,根据 Apple ID 区域不同会做明显不同的事,开发者文档也得按能力可用性分叉。

这对开发者实际意味着什么

如果你在 2026 年底要发 AI 功能,这三件事值得收下:

  1. 端侧 LLM 跨过了可用性门槛。 一个 20B 稀疏模型在手机上、支持图像输入、对 app 开发者免费,已经足够处理 app 内 AI 任务的一大块——结构化提取、分类、嵌入式摘要、工具路由。原本为了做这些事掏钱调云端 API 的 app,可以停了。
  2. 前沿任务依然属于云端。 Cloud Pro 存在是有理由的。长上下文、Agent 循环、前沿推理、多图像跨模态——所有这些通过云端 LLM 仍然更便宜、更强,或者两者都是。构建决策现在变成”什么不能跑在端侧”,而不是”我要多大的模型”。
  3. 多服务商接入是更安全的默认。 苹果现在出货的端侧模型部分由 Gemini 蒸馏而来,云端跑在 Google Cloud 中的 NVIDIA 上。模型层的供应商绑定,连苹果都不再当可选项。如果你做跨平台产品,应用层只押注单一模型供应商,这个赌注越来越难证明合理。

主线:苹果把端侧 LLM 变成了 iOS 上的基础能力。有意思的工作往上挪——挪到决定何时用它、何时绕过它,以及怎么做到这件事而不把 app 绑死在任何一家供应商身上。

延伸阅读

信源核对