AgentSkillsCN

benchmark-specs

为 Entscheider-Benchmark 构建项目脚手架与规范体系。任何关于搭建、记录、规划或规范基准设施的需求,均可触发此技能。关键词包括:“基准”、“规格”、“规划”、“CLAUDE.md”、“项目结构”、“规范”、“测试运行”、“逻辑校验”、“重构”。此外,当 Claude Code 需要理解基准项目的结构、当前阶段,或下一步行动时,也会触发此技能。在修改任何基准文件之前,请务必阅读相关说明。

SKILL.md
--- frontmatter
name: benchmark-specs
description: >
  Project scaffolding and specification system for the Entscheider-Benchmark.
  Triggers: Any request to set up, document, plan, or specify benchmark infrastructure.
  Keywords: "benchmark", "specs", "planning", "CLAUDE.md", "Projektstruktur",
  "Spezifikation", "Testlauf", "Logik-Check", "Refactoring".
  Also triggers when Claude Code needs to understand the benchmark project structure,
  current phase, or next steps. Read this before modifying any benchmark file.

Benchmark-Specs: Projektsteuerung für den Entscheider-Benchmark

Zweck

Steuert die Arbeit am Entscheider-Benchmark-Projekt. Definiert Projektstruktur, aktuelle Phase, Konventionen und Qualitätsgates.

Projektstruktur

code
Benchmark_Test/
├── CLAUDE.md              <- Einstiegspunkt
├── benchmark.py           <- Monolith (810Z) -> wird refactored
├── prompts.py             <- System-Prompt + 12 Aufgaben (6xN, 6xP)
├── .env / .env.example
├── requirements.txt
├── docs/
│   ├── planning.md        <- LEITDOKUMENT: Phasen, Status, Entscheidungen
│   ├── specs.md           <- Technische Spezifikation
│   ├── methodology.md     <- Wissenschaftliche Methodik
│   └── scoring_guide.md   <- Bewertungsanleitung
├── documents/             <- PDFs fuer Aufgaben
└── results/               <- Generiert (gitignored)

Arbeitsablauf

Vor jeder Aenderung:

  1. docs/planning.md lesen -> aktuelle Phase und offene Tasks
  2. Betroffene Datei(en) identifizieren
  3. Nur betroffene Dateien lesen, nicht alles

Nach jeder Aenderung:

  1. python -m py_compile <datei>
  2. docs/planning.md aktualisieren
  3. Bei Entscheidungen: Entscheidungslog ergaenzen

Phasen

PhaseStatusSchlüsseldateien
1. InfrastrukturDONEAlle
2. QuelldokumenteDONEdocuments/, generate_extracts.py
3. TestdurchlaufTODObenchmark.py, .env
4. Voller DurchlaufTODObenchmark.py
5. BewertungTODOresults/bewertung_manual.csv
6. VeroeffentlichungTODOREADME.md

Modulstruktur (Refactoring abgeschlossen)

ModulVerantwortungZeilen
benchmark.pyCLI, Orchestrator, call_model222
models.pyDataclasses, Config, Hilfsfunktionen158
providers.py4 API-Caller, MODELS-Dict, Routing + Retry329
prompts.pySystem-Prompt + 12 Aufgaben (6×N, 6×P)313
output.pyAlle save_*-Funktionen181
generate_extracts.pyPDF-Extraktion fuer A5-Dokumente~80

Fixes erledigt: REQUEST_DELAY aus Semaphore verschoben, 1× Retry bei HTTP 429.

Konventionen

Code: Englisch. Doku: Deutsch. Python 3.11+, asyncio, type hints. CSV: Semikolon. Temperatur: 0. Hunter-ID Header in jeder .py-Datei.

Verwandte Skills

  • benchmark-evaluator: Neutraler Methodiker & Evaluator. Zwei Modi:
    • DESIGN: Testdesign-Beratung, Methodik-Kritik, Scoring-Validierung
    • EVAL: LLM-Output-Bewertung gegen Scoring-Rubric
    • Liest: references/scoring_criteria.md, references/methodology_references.md

Referenz

Bewertungskriterien -> references/scoring_criteria.md