WeChat 文档去重 Skill
基于 Piotr Kołaczkowski (fclones作者) 的去重算法思想设计
功能
扫描微信文件夹中的重复文档(PDF、Word),通过内容指纹识别重复文件,将重复项移动到隔离文件夹等待用户确认删除。
触发词
- •
微信去重 - •
清理微信重复文件 - •
wechat dedup
工作流程
- •扫描:遍历微信文件夹,找出所有 PDF 和 Word 文档
- •指纹计算:对每个文件计算内容指纹(文件大小 + MD5哈希)
- •分组:将相同指纹的文件归为一组
- •保留策略:每组保留最早创建的文件
- •隔离:将重复文件移动到
~/微信重复文件_待删除/文件夹 - •报告:生成去重报告,显示节省的空间
使用方法
code
/wechat-dedup
或直接说:帮我清理微信的重复文件
配置
| 参数 | 默认值 | 说明 |
|---|---|---|
| 扫描路径 | 微信文件夹 | 自动检测 |
| 文件类型 | PDF, DOC, DOCX | 可扩展 |
| 隔离文件夹 | ~/微信重复文件_待删除/ | 30天后用户自行删除 |
| 保留策略 | 最早创建 | 按创建时间 |
安全机制
- •不直接删除:只移动到隔离文件夹
- •保留原始路径:在报告中记录文件原始位置
- •可恢复:30天内可从隔离文件夹恢复
技术实现
使用 Python 脚本 dedup.py 执行核心逻辑:
- •
hashlib计算 MD5 指纹 - •
PyPDF2读取 PDF 内容(可选) - •
python-docx读取 Word 内容(可选)
执行脚本
bash
python3 ~/.claude/skills/wechat-dedup/dedup.py