KVCache Benchmark Implementation
何时使用
- •编写 GPU↔CPU / GPU↔GPU 传输带宽测试
- •评估 offload 对延迟与吞吐影响
- •将底层带宽结果映射到推理场景建议
执行步骤
- •阅读
references/benchmark-matrix.md,优先实现 P0 测试矩阵。 - •为每个测试定义:数据规模、迭代次数、预热策略、同步点。
- •输出吞吐(GB/s)和时延(ms)分位值(P50/P95)。
- •基于场景预设生成建议(chunk size、是否使用 pinned memory)。
- •结果统一写入 schema,并支持 CSV 导出。
验收标准
- •包含至少 1 个 offload 场景预设
- •结果可复现(固定随机种子、固定 warmup)
- •报告包含“建议动作”字段