crawl
Reference
请先参考学习how-to-crawl-with-chrome-dev-mcp.md
Instructions
这个程序仅用来处理那些需要登陆后才能完整登录的网站,在处理过程中不要尝试生成采用其他框架或者程序来获取内容,这样获取的内容是不完整的。
- •使用python脚本程序,先判断当前是在macos还是windows环境
- •根据当前的操作系统环境,开启新浏览器实例
- •检查mcp工具chrome-devtools是否就绪,如果还未就绪请重新连接mcp工具
- •你只能使用chrome-devtols来获取浏览器中的信息,请调用mcp工具完成用户给出的任务
- •重要: 所有输出文件和程序都必须保存在项目根目录下的
output文件夹中
MCP 配置要求
json
{
"mcpServers": {
"chrome-devtools": {
"type": "stdio",
"command": "npx",
"args": [
"chrome-devtools-mcp@latest",
"--browser-url=http://127.0.0.1:9222"
],
"env": {}
}
}
}
🚀 核心功能
1. 智能浏览器管理
- •自动环境检测: 智能识别 Windows/macOS/Linux 环境
- •自动浏览器启动: 根据系统自动启动Chrome实例
- •MCP连接检查: 自动验证Chrome DevTools MCP连接状态
- •代理配置支持: 支持自动代理配置
2. 统一API集成
- •API服务管理: 自动启动和管理API服务
- •数据格式验证: 确保数据符合API要求
- •批量数据写入: 支持批量数据高效写入
- •错误重试机制: 自动重试失败的数据写入
3. 文章内容提取
使用集成的文章内容提取器,支持以下网站:
- •X/Twitter (x.com) - 推文内容提取
- •The Atlantic (theatlantic.com)
- •Medium (medium.com)
📁 输出目录结构
code
output/ ├── logs/ # 执行日志 ├── data/ # 数据文件 ├── snapshots/ # 页面快照 └── reports/ # 执行报告
📚 相关文档
| 文档 | 描述 | 用途 |
|---|---|---|
| QUICK_START.md | 快速启动指南 | 新手入门 |
| EXAMPLES.md | 详细使用示例 | 参考代码 |
| BEST_PRACTICES.md | 最佳实践指南 | 进阶优化 |
| crawl_manager.py | 核心管理器 | 直接使用 |
🎯 快速开始
方法一:使用核心管理器(推荐)
python
from .crawl_manager import extract_x_tweets
# 提取Elon Musk的最新5篇推文
result = extract_x_tweets("elonmusk", 5)
print(result)
方法二:使用标准模板
python
# 参考 EXAMPLES.md 中的完整示例
⚡ 性能特点
- •✅ 一键式启动 - 自动环境配置
- •✅ 智能重试 - 自动错误恢复
- •✅ 数据验证 - 确保数据质量
- •✅ 日志追踪 - 完整执行记录
- •✅ 批量处理 - 高效数据处理
🚨 重要提醒
- •Output目录: 所有输出文件必须保存在
output/目录下 - •URL要求: 数据必须有有效的URL字段
- •依赖检查: 使用前确保Chrome和相关依赖已安装
- •网络环境: 根据需要配置代理设置
📖 详细文档
- •完整示例: 查看 EXAMPLES.md
- •最佳实践: 查看 [BEST_PRACTICES.md]
- •快速上手: 查看 QUICK_START.md
- •核心代码: 查看 crawl_manager.py