AgentSkillsCN

Knowledge Base Search

知识库搜索

SKILL.md

name: knowledge-base-search-skill description: 智能搜索知识库中的内容,支持关键词搜索、语义理解、字段查找和示例推荐,涵盖数据集字段、优化经验、优质示例和平台机制。

知识库搜索 Skill

概述

本 Skill 的目标是:智能搜索并检索 WorldQuant BRAIN Alpha 因子研究知识库中的相关内容,涵盖数据集字段、优化经验、优质示例和平台机制四大领域。

输入可以是以下任一或组合:

  • 关键词查询:如 "turnover"、"hump"、"decay" 等
  • 自然语言问题:如 "如何降低换手率"、"sub-universe sharpe 不达标怎么办"
  • 字段名/类型:如 "close"、"returns"、"VECTOR" 类型字段
  • 因子类型/策略:如 "动量策略"、"均值回归"、"质量因子"

输出必须满足:

  • 相关性:返回与查询最相关的内容片段
  • 可操作性:提供可直接应用的方法、代码或建议
  • 可追溯性:明确标注内容来源(文件路径、章节)
  • 结构化:按相关性排序,便于快速定位

何时使用

  • 你需要查找特定数据集字段的定义、覆盖率、类型和使用统计
  • 你需要查找优化经验(如降低 Turnover、提升 Sub-Universe Sharpe、降低相关性)
  • 你需要查找优质 Alpha 示例以参考设计原则和表达式结构
  • 你需要查找平台机制(如回测原理、权重生成、PnL 计算)
  • 你需要根据经济学逻辑改进方向快速定位相关知识

输入 / 输出

输入

  • 查询类型:关键词 / 自然语言问题 / 字段名 / 因子类型

输出

  • 相关内容片段:直接引用原文并标注来源
  • 结构化摘要:提取关键点、方法、代码示例
  • 操作建议:基于知识库内容的可执行建议
  • 延伸阅读:相关章节和文档链接

MCP 工具

  • 文件搜索GlobGrep(基于 ripgrep)
  • 文件读取Read
  • 知识库位置./Resources/

硬性约束(违反任一即判定无效)

  1. 来源标注

    • 必须标注每个内容片段的来源文件路径
    • 禁止返回无来源的内容
  2. 真实性

    • 禁止编造知识库中不存在的内容
    • 禁止对原文进行过度解读或误导性总结
  3. 相关性排序

    • 相关程度从高到低排序结果
    • 优先返回直接匹配查询意图的内容
  4. 完整性

    • 代码示例必须完整且可运行
    • 方法步骤必须清晰且无遗漏

核心搜索策略

1) 关键词搜索

  • 工具Grep(ripgrep)
  • 策略
    • 大小写不敏感搜索(-i
    • 返回匹配行及上下文(-C
    • 限制结果数量(head_limit

2) 语义搜索

  • 工具Grep(多关键词组合) + Read(全文分析)
  • 策略
    • 提取查询中的关键概念
    • 组合多个关键词进行搜索
    • 读取全文并提取相关段落

3) 字段查找

  • 工具Glob + Grep
  • 策略
    • IND_DATASET/ 目录中搜索字段名
    • 返回字段定义、类型、覆盖率、使用统计
    • 关联相关数据集和文档

4) 示例推荐

  • 工具Read + 内容分析
  • 策略
    • 根据因子类型(动量/反转/质量/情绪)匹配示例
    • 提取示例的经济学解释和设计原则
    • 禁止直接复制示例代码

知识库结构

code
./Resources/
├── IND_DATASET/                    # 数据集目录
├── good_alpha_examples/             # 优质示例
├── How_WorldQuant_BRAIN_Backtesting_Works.md  # 平台机制
├── alpha_optimization/              # 优化经验
└── regular_operators.csv           # 操作符清单

搜索场景示例

场景 1:查找降低 Turnover 的方法

输入:"如何降低换手率" 或 "turnover 优化"

搜索策略

  1. 关键词搜索:Grep("turnover|换手", path="Resources/alpha_optimization")
  2. 读取相关文件:Read("Resources/alpha_optimization/turnover/如何拯救高turnover因子.md")
  3. 提取核心方法和代码示例

输出示例

code
### 场景 :查找特定字段信息
**输入**:"close 字段在哪些数据集中" 或 "VECTOR 类型字段有哪些"

**搜索策略**:
1. 关键词搜索:`Grep("close", path="Resources/IND_DATASET")`
2. 提取字段定义、覆盖率、统计信息

**输出示例**:
```markdown
## close 字段信息

**来源**:`Resources/IND_DATASET/IND_1_TOP500_fundamental.csv`

### 字段定义
- **字段名**:`close`
- **类型**:MATRIX
- **数据集**:`fundamental_v2`
- **覆盖率**:99.8%
- **用户数**:1234

### 说明
收盘价字段,可直接作为信号使用,无需聚合。

### 相关字段
- `open`:开盘价
- `high`:最高价
- `low`:最低价
- `volume`:成交量

输出格式规范

1) 结构化输出

markdown
## [查询主题]

**来源**:`[文件路径]`

### [核心要点 1]
[内容片段]

### [核心要点 2]
[内容片段]

### 代码示例
```python
[代码]

质量标准

维度标准
相关性返回内容与查询意图高度相关
准确性内容真实来自知识库,无编造
可操作性提供可直接应用的方法或建议
可追溯性明确标注来源文件路径
完整性代码完整可运行,步骤清晰无遗漏
code