Eval Harness

Name: eval-harness
Rating: 76
Author: toike08D17012

要約: AIコード生成の品質を定量的に評価。pass@kメトリクスと複数の評価タイプをサポート。

📊 評価タイプ

1. Capability Eval (REQ-EH-001)

WHEN 新機能の品質評価が必要
DO 以下のフォーマットで定義

markdown

[CAPABILITY EVAL: <feature-name>]
Task: <達成タスク>
Success Criteria:
  - [ ] 基準1
  - [ ] 基準2
  - [ ] 基準3
Expected Output: <期待出力>
Test Command: <テストコマンド>

2. Regression Eval (REQ-EH-002)

WHEN 既存機能の品質維持を確認
DO 以下のフォーマットで定義

markdown

[REGRESSION EVAL: <feature-name>]
Baseline: <Git SHA / チェックポイント>
Tests:
  - test-1: PASS/FAIL
  - test-2: PASS/FAIL
Result: X/Y passed (previously Y/Y)
Regression: Yes/No

📈 pass@k Metrics (REQ-EH-003)

メトリクス	定義	用途
pass@1	初回試行成功率	基本信頼度
pass@3	3回中1回以上成功	一般ターゲット
consecutive@3	3回連続成功	クリティカルパス

計算:

code

pass@1 = 成功数 / 試行数
pass@k = 1 - C(n-c, k) / C(n, k)
consecutive@3 = 連続成功シーケンス数 / 可能シーケンス数

レポート例:

code

📊 Eval Report: user-auth
━━━━━━━━━━━━━━━━━━━━
pass@1: 80% (8/10)
pass@3: 95% 
consecutive@3: 60%
━━━━━━━━━━━━━━━━━━━━
Status: ✅ Meets target

🔍 Grader Types (REQ-EH-004/005)

タイプ	説明	使用場面
Code-Based	コマンド実行で判定	決定的な検証
Model-Based	LLMで判定	自由形式の評価
Human	人手で判定	主観的品質評価

Human Grader Template

markdown

[HUMAN GRADE: <feature>]
Reviewer: @username
Checklist:
  - [ ] 仕様を満たしている
  - [ ] エッジケース考慮
  - [ ] API互換性維持
  - [ ] セキュリティ問題なし
Verdict: PASS/FAIL
Notes: [コメント]

トレーサビリティ

•REQ-EH-001: Capability Eval Definition
•REQ-EH-002: Regression Eval Definition
•REQ-EH-003: pass@k Metrics
•REQ-EH-004: Grader Types
•REQ-EH-005: Human Grader Support