借助 lm-evaluation-harness、HELM 及自定义基准测试对大语言模型及各类机器学习模型进行评估。内容涵盖指标选择、污染检测、统计显著性分析,以及排行榜设计方法论。
设计可靠的任务后台系统,配备重试策略、幂等性保障,以及灵活的调度机制。
在设计事件存储、实现 CQRS 读写分离、构建投影逻辑,或协调分布式事务时使用。内容涵盖技术选型、一致性处理,以及工作流编排模式。
从共享数据库到专用基础设施,设计租户隔离模型。
针对初创企业早期阶段,提供快速原型设计模式、范围界定框架、构建—测量—学习循环,以及技术债务管理方案。
在安全检查机制下删除本地与远程分支
自动格式化 Rust 与 Shell 脚本代码。适用于在编辑 .rs/.sh 文件或安装脚本后立即使用,或当用户提及代码格式化、代码风格时使用,亦或在提交/PR 之前使用。确保代码风格符合项目规范,保持一致。
处理来自 CAM(代码代理监控器)的通知。当收到带有 [CAM] 标记的消息时触发,分析通知内容并决定是否转发至 Telegram 通知用户。适用于权限请求、错误、等待输入等 Claude Code 代理的状态更新。
监控并管理 AI 编码代理进程(Claude Code、OpenCode、Codex)。可用于列出正在运行的代理、查看会话、恢复任务、发送输入或终止进程。支持 Agent Teams 多代理协作。
以意见导向的默认配置,快速搭建全新的 TypeScript + pnpm 项目。
采用带有作用域的常规提交方式创建 Git 提交。适用于用户要求提交、进行提交、保存更改,或执行任何 Git 提交操作时使用。切勿在提交信息中加入共同作者行、AI 代理提及,或任何关于 Claude、AI 或自动化工具的引用。
OPA 的 Rego 策略开发最佳实践。适用于编写、修改或审查 .rego 文件、OPA 策略、策略规则,或策略测试时使用。