name: knowledge-base-search-skill description: 智能搜索知识库中的内容,支持关键词搜索、语义理解、字段查找和示例推荐,涵盖数据集字段、优化经验、优质示例和平台机制。
知识库搜索 Skill
概述
本 Skill 的目标是:智能搜索并检索 WorldQuant BRAIN Alpha 因子研究知识库中的相关内容,涵盖数据集字段、优化经验、优质示例和平台机制四大领域。
输入可以是以下任一或组合:
- •关键词查询:如 "turnover"、"hump"、"decay" 等
- •自然语言问题:如 "如何降低换手率"、"sub-universe sharpe 不达标怎么办"
- •字段名/类型:如 "close"、"returns"、"VECTOR" 类型字段
- •因子类型/策略:如 "动量策略"、"均值回归"、"质量因子"
输出必须满足:
- •相关性:返回与查询最相关的内容片段
- •可操作性:提供可直接应用的方法、代码或建议
- •可追溯性:明确标注内容来源(文件路径、章节)
- •结构化:按相关性排序,便于快速定位
何时使用
- •你需要查找特定数据集字段的定义、覆盖率、类型和使用统计
- •你需要查找优化经验(如降低 Turnover、提升 Sub-Universe Sharpe、降低相关性)
- •你需要查找优质 Alpha 示例以参考设计原则和表达式结构
- •你需要查找平台机制(如回测原理、权重生成、PnL 计算)
- •你需要根据经济学逻辑或改进方向快速定位相关知识
输入 / 输出
输入
- •查询类型:关键词 / 自然语言问题 / 字段名 / 因子类型
输出
- •相关内容片段:直接引用原文并标注来源
- •结构化摘要:提取关键点、方法、代码示例
- •操作建议:基于知识库内容的可执行建议
- •延伸阅读:相关章节和文档链接
MCP 工具
- •文件搜索:
Glob、Grep(基于 ripgrep) - •文件读取:
Read - •知识库位置:
./Resources/
硬性约束(违反任一即判定无效)
- •
来源标注
- •必须标注每个内容片段的来源文件路径
- •禁止返回无来源的内容
- •
真实性
- •禁止编造知识库中不存在的内容
- •禁止对原文进行过度解读或误导性总结
- •
相关性排序
- •按相关程度从高到低排序结果
- •优先返回直接匹配查询意图的内容
- •
完整性
- •代码示例必须完整且可运行
- •方法步骤必须清晰且无遗漏
核心搜索策略
1) 关键词搜索
- •工具:
Grep(ripgrep) - •策略:
- •大小写不敏感搜索(
-i) - •返回匹配行及上下文(
-C) - •限制结果数量(
head_limit)
- •大小写不敏感搜索(
2) 语义搜索
- •工具:
Grep(多关键词组合) +Read(全文分析) - •策略:
- •提取查询中的关键概念
- •组合多个关键词进行搜索
- •读取全文并提取相关段落
3) 字段查找
- •工具:
Glob+Grep - •策略:
- •在
IND_DATASET/目录中搜索字段名 - •返回字段定义、类型、覆盖率、使用统计
- •关联相关数据集和文档
- •在
4) 示例推荐
- •工具:
Read+ 内容分析 - •策略:
- •根据因子类型(动量/反转/质量/情绪)匹配示例
- •提取示例的经济学解释和设计原则
- •禁止直接复制示例代码
知识库结构
code
./Resources/ ├── IND_DATASET/ # 数据集目录 ├── good_alpha_examples/ # 优质示例 ├── How_WorldQuant_BRAIN_Backtesting_Works.md # 平台机制 ├── alpha_optimization/ # 优化经验 └── regular_operators.csv # 操作符清单
搜索场景示例
场景 1:查找降低 Turnover 的方法
输入:"如何降低换手率" 或 "turnover 优化"
搜索策略:
- •关键词搜索:
Grep("turnover|换手", path="Resources/alpha_optimization") - •读取相关文件:
Read("Resources/alpha_optimization/turnover/如何拯救高turnover因子.md") - •提取核心方法和代码示例
输出示例:
code
### 场景 :查找特定字段信息
**输入**:"close 字段在哪些数据集中" 或 "VECTOR 类型字段有哪些"
**搜索策略**:
1. 关键词搜索:`Grep("close", path="Resources/IND_DATASET")`
2. 提取字段定义、覆盖率、统计信息
**输出示例**:
```markdown
## close 字段信息
**来源**:`Resources/IND_DATASET/IND_1_TOP500_fundamental.csv`
### 字段定义
- **字段名**:`close`
- **类型**:MATRIX
- **数据集**:`fundamental_v2`
- **覆盖率**:99.8%
- **用户数**:1234
### 说明
收盘价字段,可直接作为信号使用,无需聚合。
### 相关字段
- `open`:开盘价
- `high`:最高价
- `low`:最低价
- `volume`:成交量
输出格式规范
1) 结构化输出
markdown
## [查询主题] **来源**:`[文件路径]` ### [核心要点 1] [内容片段] ### [核心要点 2] [内容片段] ### 代码示例 ```python [代码]
质量标准
| 维度 | 标准 |
|---|---|
| 相关性 | 返回内容与查询意图高度相关 |
| 准确性 | 内容真实来自知识库,无编造 |
| 可操作性 | 提供可直接应用的方法或建议 |
| 可追溯性 | 明确标注来源文件路径 |
| 完整性 | 代码完整可运行,步骤清晰无遗漏 |
code