返回 Signals

Signal · AI Frontier

企业 RAG 的分水岭不是多搜一次,而是知道自己缺上下文

企业搜索真正危险的时刻,不是系统没找到资料,而是它不知道自己缺了哪块上下文。Google 的 Agentic RAG / Cross Corpus Retrieval 信号,值得从 RAG 治理而不是产品新闻角度看。

发布于 2026-06-06Danding Signals Editorial Desk人工审核AI 辅助整理,人工审核
雷达扫描信号的单色版画

核心判断

企业 RAG 的竞争点正在从“能不能召回文本”转向“系统是否知道自己缺哪块上下文,并能否用可审计的多代理循环补齐”。短期判断不是采购哪家平台,而是把 corpus 描述、权限边界、充分性检查、benchmark 口径和失败回路纳入企业 AI 搜索评估。— Danding Editorial Desk

为什么重要

截至 2026-06-05,Google Research 官方博客与 Google Cloud 官方文档共同给出的信号是:企业 RAG 正从一次检索,走向跨 corpus 规划、检索、充分上下文检查、反馈和二次检索的可审计循环。本文引用的 34%、90.1%、within 3%、824 queries 与 2,676 PDF 等数字均为 FramesQA benchmark 特定实验口径,不是生产 SLA,也不代表 GA 可用性。

RAG 评估从召回率扩展到检索治理

Google Cloud 文档把 Cross Corpus Retrieval 描述为跨多个 RAG-managed corpora 的检索与回答能力,并强调 corpus description 会影响语料选择。这意味着企业不能只看向量库、召回率和模型名,还要看语料描述、路由计划、权限边界和可审计反馈。

充分上下文检查可能成为产品护栏

Google Research 文章把 Sufficient Context Agent 放在流程中,负责判断当前检索片段和中间草稿是否足以回答问题。这个机制如果被更多产品采用,RAG 产品评估就会多出“它何时知道自己不知道”的维度。

可迭代检索会改变成本、延迟和上线流程

多轮检索可能提高答案可靠性,但也会带来额外检索、token、权限检查和延迟。企业团队需要把它放进上线前评估集、成本上限和失败回路,而不是只把它当作搜索体验升级。

关键事实

  1. 01

    Google Research 在 2026-06-05 发布官方博客,称该 Agentic RAG 框架由 Google Research 与 Google Cloud 合作,面向 Gemini Enterprise Agent Platform。

  2. 02

    截至 2026-06-05 的 Google Research 官方页,流程包含 Orchestrator、Planner Agent、Query Rewriter、Search Fanout Agent、Sufficient Context Agent 和最终 synthesis;这是官方描述的多代理检索流程,不等于每个企业场景的生产 SLA。

  3. 03

    截至 2026-06-05 的 Google Research 官方页称,该框架在 factuality datasets 上相较 standard RAG 的 accuracy 最高提升 34%;该数字是 benchmark 特定结果,不能外推为真实企业负载表现。

  4. 04

    截至 2026-06-05 的 Google Research 官方页称,FramesQA benchmark 有 824 queries 和包含 2,676 PDF documents 的 corpus;在 cross-corpus setting 中,系统回答正确率为 90.1%,且 single-corpus 与 cross-corpus 版本 latency 平均 within 3%。这些数字均属 FramesQA benchmark 口径,非生产 SLA。

  5. 05

    Google Research 文章结尾称该能力以 public preview offering 形式在 Gemini Enterprise Agent Platform 中可用;本文不把它表述为 GA。

  6. 06

    截至 2026-06-05 的 Google Cloud 官方文档说明,RAG Cross Corpus Retrieval 支持 AsyncRetrieveContexts 与 AskContexts 两类 API,并明确该 feature only available in us-central1。

不确定性

  • benchmark≠真实负载:34%、90.1%、within 3%、824 queries/2,676 PDF 均来自截至 2026-06-05 官方页中的 FramesQA benchmark 口径,不能直接推导到企业私有数据、中文语料、权限复杂场景或生产 SLA。
  • preview 可能变更:Google Research 与 Google Cloud 将能力放在 public preview / vertexai.preview 语境里,API、region、权限、价格、服务等级和文档细节都可能在后续更新。
  • 厂商自报效果需要外部验证:Google 官方实验展示了方向,但是否适合某个企业,还取决于 corpus description 质量、权限模型、评估集、检索噪音、延迟预算和人工复核流程。

后续观察

  1. 01

    观察 Cross Corpus Retrieval 是否从 public preview 进入更稳定阶段,并是否从 us-central1 扩展到更多 region。

  2. 02

    观察 Google Cloud 文档是否补充价格、SLA、配额、日志/审计能力、失败回退和企业案例。

  3. 03

    观察非 Google 的 agentic retrieval / context sufficiency 实现是否出现,避免把单厂商能力误读成行业默认。

  4. 04

    观察企业团队是否把 corpus description、权限边界、评估集和“上下文不足时怎么办”写进 RAG 上线前 checklist。

Subscribe

把 Signal 变成每周可用的判断。

订阅后继续收到 Briefing、Signal 和 Deep Dive 更新。