用于验证 AI-Assistant 配置的 skill 和 agent 功能是否正常，以及测试整套配置的端到端效果。

功能概述

1. 单技能测试 (Single Skill Test)

2. 全流程测试 (Workflow Test)

给定一个真实需求，验证整套配置从需求到代码的完整流程。

code

需求 → discuss → brainstorming → writing-plans → executing-plans → 验证

使用方式

单技能测试

code

用户: /test-harness
AI: 请选择测试模式：
    1. 单技能测试
    2. 全流程测试

用户: 1
AI: 请选择要测试的 skill：
    1. brainstorming - 需求转化为设计
    2. writing-plans - 创建实施计划
    3. executing-plans - 执行计划
    ...

用户: 2
AI: 选择测试场景：
    1. 简单 CRUD 功能
    2. 复杂工作流
    3. 边界情况处理
    4. 自定义场景

用户: 1
AI: [开始执行测试...]

全流程测试

code

用户: /test-harness
AI: 请选择测试模式：
    1. 单技能测试
    2. 全流程测试

用户: 2
AI: 请提供测试需求（描述一个功能场景）：

用户: 需要一个用户管理系统，包含增删改查、分页搜索、权限控制
AI: [启动完整流程...]

测试用例库

brainstorming 测试用例

用例 1：简单 CRUD

用例 2：复杂工作流

输入： "需要一个审批流程系统，支持多级审批、条件分支、会签" 预期检查点：

用例 3：边界情况

writing-plans 测试用例

用例 1：标准 CRUD 计划

输入： 租户管理功能设计（包含增删改查） 预期检查点：

用例 2：分阶段计划

用例 3：边界情况

executing-plans 测试用例

用例 1：标准执行

用例 2：错误处理

docs-sync 测试用例

用例 1：标准网站

用例 2：异常处理

全流程测试场景

场景 1：用户管理系统

场景 2：数据看板

场景 3：简单工具

测试报告格式

单技能测试报告

markdown

# Skill 测试报告: writing-plans

## 测试信息
- 测试时间: 2024-02-21 10:00:00
- 测试用例: 标准 CRUD 计划
- 测试时长: 3 分钟

## 检查结果

### ✅ 通过项
- [x] 任务细化到 2-5 分钟粒度 (12/12 任务)
- [x] 包含功能完整性检查表
- [x] 使用 [ ]/[x] 任务标记

### ❌ 失败项
- [ ] 识别所有功能点
  - 遗漏: 导入/导出功能 (P2)

### ⚠️ 警告项
- 部分任务描述不够清晰

## 评分: 85/100

## 建议
1. 加强功能完整性检查
2. 优化任务描述模板

全流程测试报告

markdown

# 全流程测试报告

## 测试场景
用户管理系统（CRUD + 权限）

## 各阶段评分

| 阶段 | 评分 | 问题 |
|------|------|------|
| 需求讨论 | 90 | 完整理解需求 |
| 设计 | 85 | 覆盖主要功能，缺少边界情况 |
| 计划 | 80 | 任务细化好，但有遗漏 |
| 执行 | 75 | 代码可用，但缺少测试 |

## 总体评分: 82/100

## 发现的问题
1. 设计阶段未考虑权限控制细节
2. 计划阶段遗漏导入导出
3. 执行阶段未写单元测试

## 改进建议
1. brainstorming 增加边界情况检查
2. writing-plans 优化功能完整性检查

test-harness

测试框架 (Test Harness)

功能概述

1. 单技能测试 (Single Skill Test)

2. 全流程测试 (Workflow Test)

使用方式

单技能测试

全流程测试

测试用例库

brainstorming 测试用例

用例 1：简单 CRUD

用例 2：复杂工作流

用例 3：边界情况

writing-plans 测试用例

用例 1：标准 CRUD 计划

用例 2：分阶段计划

用例 3：边界情况

executing-plans 测试用例

用例 1：标准执行

用例 2：错误处理

docs-sync 测试用例

用例 1：标准网站

用例 2：异常处理

全流程测试场景

场景 1：用户管理系统

场景 2：数据看板

场景 3：简单工具

测试报告格式

单技能测试报告

全流程测试报告

测试流程

单技能测试流程

全流程测试流程

与开发的区别

维护与扩展

添加新测试用例

调整评分标准

启动测试