AI评估（Evals）

何时使用此技能

当你需要：

AI评估不仅是测试工具，更是定义产品成功标准的核心文档。当模型本身就是产品时，评估就是产品需求文档。

评估需要包含错误分析、开放编码、建立评分标准等多步骤工作流，而非简单的通过/失败测试。

这是区别于传统软件测试或通用AI策略的独特专业技能，正在成为产品构建者最重要的新能力。

"Anthropic和OpenAI的首席产品官都表示，评估正在成为产品构建者最重要的新技能。"

核心洞察：AI评估被明确定义为一项"新技能"，它不同于传统软件测试或通用AI策略。这涉及特定的多步骤工作流程，包括错误分析、开放编码和评估标准制定。

如何应用：

"如果模型就是产品，那么评估就是产品需求文档。"

核心洞察：我们正在进入"评估时代"，评估已成为AI实验室的核心瓶颈。这涉及创建评分标准、基准测试和系统化测试来衡量模型能力。

如何应用：

战术	说明
错误分析	系统化分析模型失败案例，找出模式和根因
评分标准	建立多维度的评估rubric，涵盖准确性、相关性、安全性等
基准测试	设计可重复的benchmark来追踪模型能力变化
A/B评估	对比不同模型或提示词策略的效果差异