Signal · AI Frontier
端侧 AI 的竞争点,正在从小模型转向压缩工艺
端侧 AI 不会只靠参数量变小落地。Gemma 4 QAT 的信号是,格式、runtime、KV cache、量化方式和工具链,正在决定一个模型能不能真的跑在手机、浏览器和本地设备上。
发布于 2026-06-07Danding Signals Editorial Desk人工审核AI 辅助整理,人工审核

核心判断
端侧与本地 AI 的商业化不只靠更小参数量,还要靠面向硬件和运行时优化的压缩工艺。产品团队需要把内存、质量损失、工具链兼容性纳入模型实验;本文不构成模型推荐。— Danding Editorial Desk为什么重要
截至 2026-06-07,Google 官方博客发布 Gemma 4 QAT models。两个内存口径必须分开:mobile 格式 E2B memory footprint 为 1GB;E2B text-only without Per-Layer Embeddings 为 <1GB。本文不构成模型推荐。
端侧 AI 的门槛从模型权重转向工程栈
同一个模型家族是否能在手机、网页、笔记本或本地 GPU 跑起来,取决于格式、runtime、KV cache、上下文长度和工具适配。
隐私与成本场景会重新评估本地推理
如果小型模型能以较低内存运行,离线、低延迟、隐私敏感和边缘设备场景会重新进入产品路线讨论。
压缩质量需要独立评测
Google 强调 QAT 相比 PTQ 的质量优势,但真实任务中的质量、速度、能耗和热稳定性仍要靠第三方与本机评测验证。
关键事实
- 01
Google Blog 于 2026-06-05 发布 Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency。
- 02
文章称新版本 Gemma 4 family 使用 Quantization-Aware Training,以降低 memory requirements 并提升 on-device performance。
- 03
Google 称该发布包含面向 Q4_0 quantization format 的 QAT checkpoints,以及面向 mobile use cases 的新 quantization format。
- 04
Google 官方博客称 mobile 格式 E2B memory footprint 为 1GB;另一个独立口径是 E2B text-only without Per-Layer Embeddings requires <1GB of memory,两个口径不得混用。
- 05
文章列出的移动优化包括 static activations、channel-wise quantization、targeted 2-bit quantization、embedding and KV cache optimization。
- 06
文章称权重可在 Hugging Face 获取,工具生态包括 llama.cpp、Ollama、LM Studio、LiteRT-LM、Transformers.js、SGLang、vLLM 和 MLX 等。
不确定性
- 1GB 与 <1GB 来自 Google 官方博客,截至 2026-06-07;前者对应 mobile 格式 E2B,后者对应 E2B text-only without Per-Layer Embeddings,不得外推到所有 Gemma 4 变体。
- QAT 相比 PTQ 的质量优势需查看完整 benchmark 与任务分布,不能直接推断所有端侧任务都更好。
- 实际部署性能取决于 runtime、设备内存、上下文长度、batch、热启动和能耗;官方博客不能替代本机评测。
后续观察
- 01
核对 Hugging Face 权重、Google 文档和 LiteRT-LM 示例是否完整可用。
- 02
跟踪第三方对 QAT 与非 QAT Gemma 4 的质量、速度、内存和能耗基准。
- 03
观察移动端、浏览器端和本地笔记本 AI 产品是否采用 Gemma 4 QAT 或类似格式。
- 04
关注开源社区对 12B/更大模型量化一致性、KV cache 压缩和 MTP 支持的反馈。