Model Router Skill
路由矩阵
基于 2026-02 Benchmark 数据驱动的路由决策:
| 任务类型 | 首选 | 理由 | 降级 | |:---|:---|:---|:---| | 终端密集型操作 | Codex | Terminal-Bench 77.3% > 65.4% | Claude | | 复杂 Bug 诊断 | Claude | OpenRCA 34.9%, 推理更深 | Codex | | 多语言代码修复 | Codex | SWE-Bench Pro 领先,token 更省 | Claude | | 架构设计/评审 | Claude | ARC AGI 68.8%, 推理深度 | 不降级 | | 前端 UI 实现 | Codex | 25%更快 + chrome-devtools | Claude | | 文档/知识工作 | Claude | GDPval-AA 1606 Elo | 不降级 | | 安全审查 | 双引擎 | 两者互补 | 单引擎 | | 长上下文任务 | Claude | MRCR v2 76% vs 18.5% | 拆分任务 |
自动路由逻辑
任务输入 → 分类
│
├─ 涉及终端/脚本/CLI?
│ → Codex CLI
│
├─ 涉及前端 UI + 需要实时调试?
│ → Codex CLI (chrome-devtools)
│
├─ 涉及架构决策/复杂推理?
│ → Claude Code (effort=max)
│
├─ 涉及文档/分析/知识工作?
│ → Claude Code
│
├─ 涉及安全审查?
│ → 双引擎并行 (Agent Teams)
│
└─ 其他?
→ 当前平台默认
交叉验证模式
vibe-verify --cross 触发:
Claude 实现 → Codex 审查 → 差异报告
Codex 实现 → Claude 审查 → 差异报告
利用模型差异化能力提高缺陷发现率。
降级策略
| 条件 | 动作 | |:---|:---| | 目标模型不可用 | 使用当前平台继续 | | 连续 2 次执行失败 | 切换到备选模型 | | API 限流 | 队列等待或降级 |
所有降级决策记录到 .ai_state/decisions.md。