Signal · AI Frontier

工具调用的胜负手，正在从提示词转向失败样本

当 Agent 进生产后，错误工具选择、参数格式错误和工作流断链，不再只是 prompt 写得不够好。更重要的问题是：这些失败样本能不能沉淀成可训练、可评测的数据资产。

发布于 2026-06-07Danding Signals Editorial Desk人工审核AI 辅助整理，人工审核

核心判断

Agent 可靠性会越来越依赖“工具调用数据集 + 偏好数据 + 评测闭环”；产品团队需要把失败样本沉淀成训练资产，而不是只靠更长提示词。本文不构成 SageMaker 选型建议。— Danding Editorial Desk

Share-ready

适合转发和会前讨论的摘要

一句话判断

SFT/DPO 示例提醒团队：工具调用日志可能就是下一批训练数据。

80 字可复制摘要

工具调用准确率的下一步，不只是写更长 prompt，而是把错误工具选择、参数失败和人工纠错沉淀成可训练、可评测的数据资产。

讨论问题

你的 Agent 工具调用失败样本，现在是被丢掉了，还是进入了训练和评测闭环？

角色行动

产品负责人

为工具调用失败设计标注分类，区分选错工具、参数错误、权限不足和流程断链。

技术负责人

把 tool-call accuracy、parameter validity 和 workflow completion rate 加进上线门槛。

数据负责人

评估失败日志是否能合规沉淀为 SFT/DPO 数据，先从低风险工具域试点。

为什么重要

截至 2026-06-07，AWS Machine Learning Blog 展示了用 SFT 与 DPO 在 SageMaker AI 上提升 Agent 工具调用准确率的示例。文中 15,000、9,000、300、3,652 等数字均为 example-specific 数据集口径，不构成 SageMaker 选型建议。

失败样本会成为 Agent 团队的核心资产

如果工具调用错误可以通过 SFT/DPO 改善，客服记录、执行日志、参数校验失败和人工纠错就不只是排障材料，而是训练数据。

小模型策略重新获得空间

对明确工具域的业务，调优小模型可能比长期依赖更贵通用模型更可控，但前提是团队有评测和数据治理能力。

上线门槛会更像软件质量管理

tool-call accuracy、parameter validity、workflow completion rate 和 failed-chain analysis 会变成 Agent 上线前的检查项。

关键事实

01
AWS Machine Learning Blog 于 2026-06-03 发布 Improve your agent’s tool-calling accuracy with SFT and DPO on Amazon SageMaker AI。
02
文章称 Agent 选择错误工具、参数格式错误或打断工作流链条，会增加完成时间、错误率、支持成本并降低用户体验。
03
文章介绍用 Supervised Fine-Tuning 和 Direct Preference Optimization 改善小语言模型的工具调用准确率。
04
示例使用 NVIDIA When2Call 数据集；文中代码片段显示 SFT 训练集为 15,000 samples，DPO preference 数据为 9,000 samples，均为 example-specific。
05
文中 test dataset 示例包含 300 行 LLM-as-a-judge 子集和 3,652 行 MCQ 子集，均为 example-specific 评测数据口径。
06
文章示例使用 SageMaker AI training jobs，并用 Qwen3-1.7B 作为 fine-tuning 示例模型；本文不构成 SageMaker 选型建议。

不确定性

When2Call benchmark 与真实企业工具生态存在差距；15,000/9,000/300/3,652 都是 example-specific 数字，不是通用最低门槛。
SFT/DPO 是否优于更强基座模型、规则校验或 planner 架构，需要按业务任务评测，不能写成确定性建议。
训练成本、数据标注成本、隐私约束和上线审批可能抵消小模型推理成本优势。

后续观察

01
跟踪 Agent 平台是否默认提供工具调用错误分类、失败样本导出和再训练流水线。
02
观察企业是否把 tool-call accuracy、parameter validity、workflow completion rate 放入上线门槛。
03
核对 SageMaker 示例代码、训练实例、费用和可复现评测结果。
04
寻找非 AWS、非 When2Call 的工具调用训练与评测案例。