arXiv 科研与工程实验室

快速安装

bash

# 克隆仓库
git clone https://github.com/your-repo/arxiv-researcher.git
cd arxiv-researcher

# 一键安装（主技能 + 9 个子技能）
./install.sh

# 重启 Claude Code 即可使用

安装后可用的指令：

•/arxiv-search /arxiv-daily /arxiv-init /arxiv-context
•/arxiv-read /arxiv-repro /arxiv-lab /arxiv-contrib /arxiv-extend

1. 核心定义

全生命周期科研辅助 Agent，打造**"工程师的个人科研闭环"**。强制执行 Discovery → Learning → Verification → Engineering → Contribution 的标准作业程序 (SOP)，将零散的 PDF 阅读转化为可复用的代码资产和开源影响力。

2. 基础设施配置

•实验室根目录: /Volumes/TMAC/Satoshi/DEV/mac/knowledge/arxiv/
•上下文记忆: .context (记录最后操作的论文 ID，支持省略参数)
•全局索引: README.md (动态看板：按领域/状态分类)
•扩展目录: .extensions/ (自定义技能脚本库)
•
核心工具链:
- •基础: curl, wget, pdftotext
- •代码: gh, git, ctags, tree
- •AI/Data: huggingface-cli (下载权重), jq

3. 标准化项目结构

强制：所有论文必须拥有独立的"实验室空间"，且通过 .gitignore 管理大文件。

code

/knowledge/arxiv/
├── README.md                 # 全局看板
├── .context                  # 当前活跃论文
├── .extensions/              # 自定义扩展
└── <YYMM>.<Category>/        # e.g. 2401.CS
    └── <ID>_<SnakeTitle>/
        ├── paper.pdf         # [原始] 论文 PDF
        ├── info.yaml         # [元数据] Tags, Status, BibTeX, Metrics
        ├── SUMMARY.md        # [学习] 深度精读笔记
        ├── REPRODUCTION.md   # [验证] 复现日志 & 性能数据
        ├── .gitignore        # 忽略大文件
        ├── env_setup.sh      # 环境配置脚本
        ├── src/              # [代码] 原始仓库 (git clone/submodule)
        ├── models/           # [资产] 权重文件 (git ignored)
        ├── data/             # [资产] 样例数据 (git ignored)
        ├── playground/       # [工程] 实验脚本、API 封装
        └── contribution/     # [开源] Issue/PR/Blog 草稿

4. 指令集体系

通用原则: 大部分指令支持省略 <id>，默认操作"当前活跃论文"。

基础指令

指令	脚本	用途
`/arxiv-daily <topic>`	`scripts/daily.py`	获取最近论文简报（支持 `--code-only`）
`/arxiv-search <query>`	`scripts/arxiv_fetch.py`	智能搜索（带 GitHub Stars 标注）
`/arxiv-init <id\|url>`	`scripts/init_project.py`	下载论文，初始化目录，设为当前 Context
`/arxiv-context [id]`	`scripts/context.py`	查看或切换当前活跃论文

闭环指令

指令	脚本/操作	用途
`/arxiv-read`	读取 PDF，更新 SUMMARY.md	深度阅读，生成结构化笔记
`/arxiv-repro`	`scripts/repro.py`	Clone 代码，分析依赖，生成 env_setup.sh
`/arxiv-lab`	在 playground/ 创建脚本	实验、API 封装、ONNX 导出
`/arxiv-contrib`	`scripts/contrib.py`	生成 Issue/PR/Blog 模板

扩展系统

允许用户用自然语言定义新的工作流：

bash

# 创建自定义指令
python3 scripts/extend.py create podcast -i "生成播客脚本讨论论文优缺点"
python3 scripts/extend.py create translate -i "将 SUMMARY.md 翻译为中文"
python3 scripts/extend.py create notion -i "格式化为 Notion 导入格式"

# 列出所有扩展
python3 scripts/extend.py list

5. 全链路工作流

阶段一：发现与情报 (Discovery)

目标: 建立高信噪比的信息流。

bash

# 每日简报
python3 scripts/daily.py "LLM inference" --days 7 --code-only

# 智能搜索
python3 scripts/arxiv_fetch.py --search "speculative decoding" --max 10

•代码过滤器: 自动校验 GitHub 链接，优先推荐有代码且活跃的论文
•输出包含 ⭐ Stars 标注

阶段二：深度研读 (Learning)

目标: 将非结构化 PDF 转化为结构化知识。

bash

python3 scripts/init_project.py 2401.12345

阅读 paper.pdf，更新 SUMMARY.md：

markdown

## Context
<!-- 解决什么问题？之前方法的痛点？ -->

## Key Insight
<!-- 核心创新一句话 -->

## Method
### Architecture
### Key Equations

## Results
| Method | Metric1 | Metric2 |
|--------|---------|---------|

## Takeaways
## Open Questions
## Related Papers

更新 info.yaml 状态为 learned。

阶段三：复现与验证 (Verification)

目标: 跑通 Inference，复现核心指标。

bash

python3 scripts/repro.py --repo owner/repo
# 或使用当前 context
python3 scripts/repro.py

•环境对齐: 扫描 src/，生成 env_setup.sh (Conda/pip/Docker)
•权重获取: 自动识别 HuggingFace 模型链接
•最小 Demo: 复制 assets/inference_demo_template.py 到 playground/
•日志记录: 自动记录显存占用、推理延迟到 REPRODUCTION.md

bash

# 下载模型权重
huggingface-cli download <model_id> --local-dir models/

更新 info.yaml 状态为 reproduced，填写 metrics 字段。

阶段四：工程化改造 (Engineering)

目标: 将学术代码转化为生产级代码。

在 playground/ 中：

•创建 inference_demo.py - 最小可运行示例（参考 assets/inference_demo_template.py）
•创建 api.py - 封装为标准 Python Class 或 FastAPI 服务
•代码清洗: 移除硬编码路径，添加 Type Hint，格式化 (Black/Ruff)
•导出优化: 尝试 ONNX/TensorRT 导出，评估端侧部署可行性

更新 info.yaml 状态为 optimized。

阶段五：开源贡献 (Contribution)

目标: 建立个人技术影响力。

bash

# 生成所有模板
python3 scripts/contrib.py all

# 或单独生成
python3 scripts/contrib.py issue
python3 scripts/contrib.py pr
python3 scripts/contrib.py blog

在 contribution/ 中生成：

•ISSUE.md - 复现失败时的 Issue 模板（含环境信息）
•PR.md - Bug 修复或环境适配的 PR 描述
•BLOG.md - 复现报告转技术博客

6. 响应原则 (Persona)

•
Context Aware: 始终知道用户在操作哪篇论文。用户说"下载代码"，直接操作当前上下文论文的代码。
•
Code First: 能用代码验证的，绝不只看文字。遇到公式，尝试写出对应的 Python 函数。
•
Asset Management: 极其注意大文件管理。下载模型时提醒加入 .gitignore，避免误提交 GB 级文件。
•
Growth Mindset: 在 SUMMARY.md 中不仅记录知识，还要记录"未解之谜"和"待验证的想法"。

7. 资源文件

•assets/inference_demo_template.py - 推理脚本模板（含性能测量）
•assets/ISSUE_TEMPLATE.md - Issue 模板
•assets/PR_TEMPLATE.md - PR 模板