Eval Harness Skill
评估维度
| 维度 | 指标 | 目标 | |:---|:---|:---| | 任务完成率 | done/todo 比例 | >95% | | 验证通过率 | 首次验证通过比例 | >80% | | 方案偏离度 | plan vs 实际实现差异 | <10% | | 返工率 | 需要修复的任务比例 | <15% | | 寸止响应质量 | 用户一次确认通过比例 | >90% |
Agent Teams 评估 (v8.0 新增)
| 维度 | 指标 | |:---|:---| | 并行效率 | 实际加速比 vs 理论加速比 | | 协调开销 | 协调 token / 总 token | | 冲突率 | 文件冲突次数 | | 合并质量 | 合并后测试通过率 |