Eval Harness 技能

一个用于 Codex Agentic Code 会话的正式评估框架，实现了评估驱动开发 (EDD) 原则。

理念

评估驱动开发将评估视为 "AI 开发的单元测试"：

•在实现之前定义预期行为
•在开发过程中持续运行评估
•跟踪每次更改的回归情况
•使用 pass@k 指标来衡量可靠性

评估类型

能力评估

测试 Codex 是否能完成之前无法完成的事情：

markdown

[能力评估：功能名称]
任务：描述 Codex 应完成的工作
成功标准：
  - [ ] 标准 1
  - [ ] 标准 2
  - [ ] 标准 标准 3
预期输出：对预期结果的描述

回归评估

确保更改不会破坏现有功能：

markdown

[回归评估：功能名称]
基线：SHA 或检查点名称
测试：
  - 现有测试-1：通过/失败
  - 现有测试-2：通过/失败
  - 现有测试-3：通过/失败
结果：X/Y 通过（之前为 Y/Y）

评分器类型

1. 基于代码的评分器

使用代码进行确定性检查：

bash

# Check if file contains expected pattern
grep -q "export function handleAuth" src/auth.ts && echo "PASS" || echo "FAIL"

# Check if tests pass
npm test -- --testPathPattern="auth" && echo "PASS" || echo "FAIL"

# Check if build succeeds
npm run build && echo "PASS" || echo "FAIL"

2. 基于模型的评分器

使用 Codex 来评估开放式输出：

markdown

[MODEL GRADER PROMPT]
评估以下代码变更：
1. 它是否解决了所述问题？
2. 它的结构是否良好？
3. 是否处理了边界情况？
4. 错误处理是否恰当？

评分：1-5 (1=差，5=优秀)
推理：[解释]

3. 人工评分器

标记为需要手动审查：

markdown

[HUMAN REVIEW REQUIRED]
变更：对更改内容的描述
原因：为何需要人工审核
风险等级：低/中/高

指标

pass@k

"k 次尝试中至少成功一次"

•pass@1：首次尝试成功率
•pass@3：3 次尝试内成功率
•典型目标：pass@3 > 90%

pass^k

"所有 k 次试验都成功"

•更高的可靠性门槛
•pass^3：连续 3 次成功
•用于关键路径

评估工作流程

1. 定义（编码前）

markdown

## 评估定义：功能-xyz

### 能力评估
1. 可以创建新用户账户
2. 可以验证电子邮件格式
3. 可以安全地哈希密码

### 回归评估
1. 现有登录功能仍然有效
2. 会话管理未改变
3. 注销流程完整

### 成功指标
- 能力评估的 pass@3 > 90%
- 回归评估的 pass^3 = 100%

2. 实现

编写代码以通过已定义的评估。

3. 评估

bash

# Run capability evals
[Run each capability eval, record PASS/FAIL]

# Run regression evals
npm test -- --testPathPattern="existing"

# Generate report

4. 报告

markdown

评估报告：功能-xyz
========================

能力评估：
  创建用户：    通过（通过@1）
  验证邮箱：    通过（通过@2）
  哈希密码：    通过（通过@1）
  总计：         3/3 通过

回归评估：
  登录流程：     通过
  会话管理：     通过
  登出流程：     通过
  总计：         3/3 通过

指标：
  通过@1： 67% (2/3)
  通过@3： 100% (3/3)

状态：准备就绪，待审核

集成模式

实施前

code

/eval define feature-name

在 .claude/evals/feature-name.md 处创建评估定义文件

实施过程中

code

/eval check feature-name

运行当前评估并报告状态

实施后

code

/eval report feature-name

生成完整的评估报告

评估存储

将评估存储在项目中：

code

.claude/
  evals/
    feature-xyz.md      # Eval definition
    feature-xyz.log     # Eval run history
    baseline.json       # Regression baselines

最佳实践

•在编码前定义评估 - 强制清晰地思考成功标准
•频繁运行评估 - 及早发现回归问题
•随时间跟踪 pass@k - 监控可靠性趋势
•尽可能使用代码评分器 - 确定性 > 概率性
•对安全性进行人工审查 - 永远不要完全自动化安全检查
•保持评估快速 - 缓慢的评估不会被运行
•评估与代码版本化 - 评估是一等工件

示例：添加身份验证

markdown

## EVAL：添加身份验证

### 第 1 阶段：定义 (10 分钟)
能力评估：
- [ ] 用户可以使用邮箱/密码注册
- [ ] 用户可以使用有效凭证登录
- [ ] 无效凭证被拒绝并显示适当的错误
- [ ] 会话在页面重新加载后保持
- [ ] 登出操作清除会话

回归评估：
- [ ] 公共路由仍可访问
- [ ] API 响应未改变
- [ ] 数据库模式兼容

### 第 2 阶段：实施 (时间不定)
[编写代码]

### 第 3 阶段：评估
运行：/eval check add-authentication

### 第 4 阶段：报告
评估报告：添加身份验证
==============================
能力：5/5 通过 (pass@3: 100%)
回归：3/3 通过 (pass^3: 100%)
状态：可以发布