kvcache-benchmark-impl

通过场景预设与切实可行的优化建议，开展 KV 数据传输与卸载基准测试。

SKILL.md

--- frontmatter

name: kvcache-benchmark-impl
description: Implement KV transfer and offload benchmarks with scenario presets and actionable optimization recommendations.

KVCache Benchmark Implementation

何时使用

•编写 GPU↔CPU / GPU↔GPU 传输带宽测试
•评估 offload 对延迟与吞吐影响
•将底层带宽结果映射到推理场景建议

执行步骤

•阅读 references/benchmark-matrix.md，优先实现 P0 测试矩阵。
•为每个测试定义：数据规模、迭代次数、预热策略、同步点。
•输出吞吐（GB/s）和时延（ms）分位值（P50/P95）。
•基于场景预设生成建议（chunk size、是否使用 pinned memory）。
•结果统一写入 schema，并支持 CSV 导出。

验收标准

•包含至少 1 个 offload 场景预设
•结果可复现（固定随机种子、固定 warmup）
•报告包含“建议动作”字段