Signal · AI Frontier
工具调用的胜负手,正在从提示词转向失败样本
当 Agent 进生产后,错误工具选择、参数格式错误和工作流断链,不再只是 prompt 写得不够好。更重要的问题是:这些失败样本能不能沉淀成可训练、可评测的数据资产。
发布于 2026-06-07Danding Signals Editorial Desk人工审核AI 辅助整理,人工审核

核心判断
Agent 可靠性会越来越依赖“工具调用数据集 + 偏好数据 + 评测闭环”;产品团队需要把失败样本沉淀成训练资产,而不是只靠更长提示词。本文不构成 SageMaker 选型建议。— Danding Editorial Desk为什么重要
截至 2026-06-07,AWS Machine Learning Blog 展示了用 SFT 与 DPO 在 SageMaker AI 上提升 Agent 工具调用准确率的示例。文中 15,000、9,000、300、3,652 等数字均为 example-specific 数据集口径,不构成 SageMaker 选型建议。
失败样本会成为 Agent 团队的核心资产
如果工具调用错误可以通过 SFT/DPO 改善,客服记录、执行日志、参数校验失败和人工纠错就不只是排障材料,而是训练数据。
小模型策略重新获得空间
对明确工具域的业务,调优小模型可能比长期依赖更贵通用模型更可控,但前提是团队有评测和数据治理能力。
上线门槛会更像软件质量管理
tool-call accuracy、parameter validity、workflow completion rate 和 failed-chain analysis 会变成 Agent 上线前的检查项。
关键事实
- 01
AWS Machine Learning Blog 于 2026-06-03 发布 Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI。
- 02
文章称 Agent 选择错误工具、参数格式错误或打断工作流链条,会增加完成时间、错误率、支持成本并降低用户体验。
- 03
文章介绍用 Supervised Fine-Tuning 和 Direct Preference Optimization 改善小语言模型的工具调用准确率。
- 04
示例使用 NVIDIA When2Call 数据集;文中代码片段显示 SFT 训练集为 15,000 samples,DPO preference 数据为 9,000 samples,均为 example-specific。
- 05
文中 test dataset 示例包含 300 行 LLM-as-a-judge 子集和 3,652 行 MCQ 子集,均为 example-specific 评测数据口径。
- 06
文章示例使用 SageMaker AI training jobs,并用 Qwen3-1.7B 作为 fine-tuning 示例模型;本文不构成 SageMaker 选型建议。
不确定性
- When2Call benchmark 与真实企业工具生态存在差距;15,000/9,000/300/3,652 都是 example-specific 数字,不是通用最低门槛。
- SFT/DPO 是否优于更强基座模型、规则校验或 planner 架构,需要按业务任务评测,不能写成确定性建议。
- 训练成本、数据标注成本、隐私约束和上线审批可能抵消小模型推理成本优势。
后续观察
- 01
跟踪 Agent 平台是否默认提供工具调用错误分类、失败样本导出和再训练流水线。
- 02
观察企业是否把 tool-call accuracy、parameter validity、workflow completion rate 放入上线门槛。
- 03
核对 SageMaker 示例代码、训练实例、费用和可复现评测结果。
- 04
寻找非 AWS、非 When2Call 的工具调用训练与评测案例。