微信公众号文章抓取助手
本技能专门用于突破微信公众号文章的访问限制,将其转化为结构良好的 Markdown 文件,并自动处理图片资源的本地化。
使用场景
- •当用户提供以
https://mp.weixin.qq.com/s/开头的链接时。 - •需要将公众号内容保存为本地 Markdown 文档时。
- •需要对公众号长文进行结构化总结或提取图片资源时。
核心功能
- •全文抓取: 自动处理标准文章流和特殊的“图片页”格式。
- •图文混排: 保持原有的段落和图片位置关系。
- •图片本地化: 自动下载远程图片到
images/目录,并更新 Markdown 引用路径。 - •结构化输出: 自动识别标题层级(H1-H6),生成易于阅读的文档。
- •概要生成: 自动提取文章核心观点、关键洞见及作者信息。
- •flomo 集成: 支持将生成的文章概要推送到 flomo 笔记平台。
目录结构说明
- •
bin/main.py: 主执行脚本,支持可选的 flomo API URL 参数。 - •
utils/downloader.py: 负责 HTML 和图片下载。 - •
utils/parser.py: 负责内容解析、清洗和结构化。 - •
utils/flomo.py: 负责向 flomo 发送 POST 请求。 - •
images/: (运行后生成) 存放本地化后的图片资源。
使用示例
- •仅本地抓取: 直接提供公众号链接。
- •推送至 flomo: 提供链接的同时,告知 flomo 秘钥(API URL),脚本将自动完成推送。