返回 Signals

Signal · AI Frontier

端侧 AI 的竞争点,正在从小模型转向压缩工艺

端侧 AI 不会只靠参数量变小落地。Gemma 4 QAT 的信号是,格式、runtime、KV cache、量化方式和工具链,正在决定一个模型能不能真的跑在手机、浏览器和本地设备上。

发布于 2026-06-07Danding Signals Editorial Desk人工审核AI 辅助整理,人工审核
雷达扫描信号的单色版画

核心判断

端侧与本地 AI 的商业化不只靠更小参数量,还要靠面向硬件和运行时优化的压缩工艺。产品团队需要把内存、质量损失、工具链兼容性纳入模型实验;本文不构成模型推荐。— Danding Editorial Desk

为什么重要

截至 2026-06-07,Google 官方博客发布 Gemma 4 QAT models。两个内存口径必须分开:mobile 格式 E2B memory footprint 为 1GB;E2B text-only without Per-Layer Embeddings 为 <1GB。本文不构成模型推荐。

端侧 AI 的门槛从模型权重转向工程栈

同一个模型家族是否能在手机、网页、笔记本或本地 GPU 跑起来,取决于格式、runtime、KV cache、上下文长度和工具适配。

隐私与成本场景会重新评估本地推理

如果小型模型能以较低内存运行,离线、低延迟、隐私敏感和边缘设备场景会重新进入产品路线讨论。

压缩质量需要独立评测

Google 强调 QAT 相比 PTQ 的质量优势,但真实任务中的质量、速度、能耗和热稳定性仍要靠第三方与本机评测验证。

关键事实

  1. 01

    Google Blog 于 2026-06-05 发布 Gemma 4 QAT models: Optimizing model compression for mobile and laptop efficiency。

  2. 02

    文章称新版本 Gemma 4 family 使用 Quantization-Aware Training,以降低 memory requirements 并提升 on-device performance。

  3. 03

    Google 称该发布包含面向 Q4_0 quantization format 的 QAT checkpoints,以及面向 mobile use cases 的新 quantization format。

  4. 04

    Google 官方博客称 mobile 格式 E2B memory footprint 为 1GB;另一个独立口径是 E2B text-only without Per-Layer Embeddings requires <1GB of memory,两个口径不得混用。

  5. 05

    文章列出的移动优化包括 static activations、channel-wise quantization、targeted 2-bit quantization、embedding and KV cache optimization。

  6. 06

    文章称权重可在 Hugging Face 获取,工具生态包括 llama.cpp、Ollama、LM Studio、LiteRT-LM、Transformers.js、SGLang、vLLM 和 MLX 等。

不确定性

  • 1GB 与 <1GB 来自 Google 官方博客,截至 2026-06-07;前者对应 mobile 格式 E2B,后者对应 E2B text-only without Per-Layer Embeddings,不得外推到所有 Gemma 4 变体。
  • QAT 相比 PTQ 的质量优势需查看完整 benchmark 与任务分布,不能直接推断所有端侧任务都更好。
  • 实际部署性能取决于 runtime、设备内存、上下文长度、batch、热启动和能耗;官方博客不能替代本机评测。

后续观察

  1. 01

    核对 Hugging Face 权重、Google 文档和 LiteRT-LM 示例是否完整可用。

  2. 02

    跟踪第三方对 QAT 与非 QAT Gemma 4 的质量、速度、内存和能耗基准。

  3. 03

    观察移动端、浏览器端和本地笔记本 AI 产品是否采用 Gemma 4 QAT 或类似格式。

  4. 04

    关注开源社区对 12B/更大模型量化一致性、KV cache 压缩和 MTP 支持的反馈。

Subscribe

把 Signal 变成每周可用的判断。

订阅后继续收到 Briefing、Signal 和 Deep Dive 更新。