返回 Signals

Signal · AI Frontier

工具调用的胜负手,正在从提示词转向失败样本

当 Agent 进生产后,错误工具选择、参数格式错误和工作流断链,不再只是 prompt 写得不够好。更重要的问题是:这些失败样本能不能沉淀成可训练、可评测的数据资产。

发布于 2026-06-07Danding Signals Editorial Desk人工审核AI 辅助整理,人工审核
雷达扫描信号的单色版画

核心判断

Agent 可靠性会越来越依赖“工具调用数据集 + 偏好数据 + 评测闭环”;产品团队需要把失败样本沉淀成训练资产,而不是只靠更长提示词。本文不构成 SageMaker 选型建议。— Danding Editorial Desk

为什么重要

截至 2026-06-07,AWS Machine Learning Blog 展示了用 SFT 与 DPO 在 SageMaker AI 上提升 Agent 工具调用准确率的示例。文中 15,000、9,000、300、3,652 等数字均为 example-specific 数据集口径,不构成 SageMaker 选型建议。

失败样本会成为 Agent 团队的核心资产

如果工具调用错误可以通过 SFT/DPO 改善,客服记录、执行日志、参数校验失败和人工纠错就不只是排障材料,而是训练数据。

小模型策略重新获得空间

对明确工具域的业务,调优小模型可能比长期依赖更贵通用模型更可控,但前提是团队有评测和数据治理能力。

上线门槛会更像软件质量管理

tool-call accuracy、parameter validity、workflow completion rate 和 failed-chain analysis 会变成 Agent 上线前的检查项。

关键事实

  1. 01

    AWS Machine Learning Blog 于 2026-06-03 发布 Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI。

  2. 02

    文章称 Agent 选择错误工具、参数格式错误或打断工作流链条,会增加完成时间、错误率、支持成本并降低用户体验。

  3. 03

    文章介绍用 Supervised Fine-Tuning 和 Direct Preference Optimization 改善小语言模型的工具调用准确率。

  4. 04

    示例使用 NVIDIA When2Call 数据集;文中代码片段显示 SFT 训练集为 15,000 samples,DPO preference 数据为 9,000 samples,均为 example-specific。

  5. 05

    文中 test dataset 示例包含 300 行 LLM-as-a-judge 子集和 3,652 行 MCQ 子集,均为 example-specific 评测数据口径。

  6. 06

    文章示例使用 SageMaker AI training jobs,并用 Qwen3-1.7B 作为 fine-tuning 示例模型;本文不构成 SageMaker 选型建议。

不确定性

  • When2Call benchmark 与真实企业工具生态存在差距;15,000/9,000/300/3,652 都是 example-specific 数字,不是通用最低门槛。
  • SFT/DPO 是否优于更强基座模型、规则校验或 planner 架构,需要按业务任务评测,不能写成确定性建议。
  • 训练成本、数据标注成本、隐私约束和上线审批可能抵消小模型推理成本优势。

后续观察

  1. 01

    跟踪 Agent 平台是否默认提供工具调用错误分类、失败样本导出和再训练流水线。

  2. 02

    观察企业是否把 tool-call accuracy、parameter validity、workflow completion rate 放入上线门槛。

  3. 03

    核对 SageMaker 示例代码、训练实例、费用和可复现评测结果。

  4. 04

    寻找非 AWS、非 When2Call 的工具调用训练与评测案例。

Subscribe

把 Signal 变成每周可用的判断。

订阅后继续收到 Briefing、Signal 和 Deep Dive 更新。