Signal · AI Frontier

端侧 AI 的竞争点，正在从小模型转向压缩工艺

端侧 AI 不会只靠参数量变小落地。Gemma 4 QAT 的信号是，格式、runtime、KV cache、量化方式和工具链，正在决定一个模型能不能真的跑在手机、浏览器和本地设备上。

发布于 2026-06-07Danding Signals Editorial Desk人工审核AI 辅助整理，人工审核

核心判断

端侧与本地 AI 的商业化不只靠更小参数量，还要靠面向硬件和运行时优化的压缩工艺。产品团队需要把内存、质量损失、工具链兼容性纳入模型实验；本文不构成模型推荐。— Danding Editorial Desk

Share-ready

适合转发和会前讨论的摘要

一句话判断

QAT、格式和 runtime 适配，正在成为端侧 AI 产品化的关键变量。

80 字可复制摘要

Gemma 4 QAT 的信号不是哪家模型最便宜，而是端侧 AI 的落地越来越取决于压缩格式、runtime、KV cache 和工具链组合。

讨论问题

你的端侧 AI 实验是在比较模型名，还是在同时评测格式、runtime、内存和能耗？

角色行动

产品负责人

把离线、隐私、延迟和设备覆盖场景拆开评估，不把小模型等同于可上线。

技术负责人

为同一任务同时记录内存、速度、能耗、热稳定性和质量损失。

战略/硬件

关注压缩格式与 runtime 生态，而不是只跟踪参数规模和榜单分数。

为什么重要

截至 2026-06-07，Google 官方博客发布 Gemma 4 QAT models。两个内存口径必须分开：mobile 格式 E2B memory footprint 为 1GB；E2B text-only without Per-Layer Embeddings 为 <1GB。本文不构成模型推荐。

端侧 AI 的门槛从模型权重转向工程栈

同一个模型家族是否能在手机、网页、笔记本或本地 GPU 跑起来，取决于格式、runtime、KV cache、上下文长度和工具适配。

隐私与成本场景会重新评估本地推理

如果小型模型能以较低内存运行，离线、低延迟、隐私敏感和边缘设备场景会重新进入产品路线讨论。

压缩质量需要独立评测

Google 强调 QAT 相比 PTQ 的质量优势，但真实任务中的质量、速度、能耗和热稳定性仍要靠第三方与本机评测验证。

关键事实

01
Google Blog 于 2026-06-05 发布 Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency。
02
文章称新版本 Gemma 4 family 使用 Quantization-Aware Training，以降低 memory requirements 并提升 on-device performance。
03
Google 称该发布包含面向 Q4_0 quantization format 的 QAT checkpoints，以及面向 mobile use cases 的新 quantization format。
04
Google 官方博客称 mobile 格式 E2B memory footprint 为 1GB；另一个独立口径是 E2B text-only without Per-Layer Embeddings requires <1GB of memory，两个口径不得混用。
05
文章列出的移动优化包括 static activations、channel-wise quantization、targeted 2-bit quantization、embedding and KV cache optimization。
06
文章称权重可在 Hugging Face 获取，工具生态包括 llama.cpp、Ollama、LM Studio、LiteRT-LM、Transformers.js、SGLang、vLLM 和 MLX 等。

不确定性

1GB 与 <1GB 来自 Google 官方博客，截至 2026-06-07；前者对应 mobile 格式 E2B，后者对应 E2B text-only without Per-Layer Embeddings，不得外推到所有 Gemma 4 变体。
QAT 相比 PTQ 的质量优势需查看完整 benchmark 与任务分布，不能直接推断所有端侧任务都更好。
实际部署性能取决于 runtime、设备内存、上下文长度、batch、热启动和能耗；官方博客不能替代本机评测。

后续观察

01
核对 Hugging Face 权重、Google 文档和 LiteRT-LM 示例是否完整可用。
02
跟踪第三方对 QAT 与非 QAT Gemma 4 的质量、速度、内存和能耗基准。
03
观察移动端、浏览器端和本地笔记本 AI 产品是否采用 Gemma 4 QAT 或类似格式。
04
关注开源社区对 12B/更大模型量化一致性、KV cache 压缩和 MTP 支持的反馈。