智谱 GLM-OCR 高性能解析技能 (Skill)
本 Skill 用于将图片或 PDF 文档高效转换为结构化的 Markdown 文件。它针对大型文档、医学资料、复杂排版进行了深度优化。
🌟 核心能力
- •全格式支持: 兼容图片 (PNG, JPG, JPEG, WebP) 及多页 PDF。
- •高并发加速: 默认 10 线程并行请求,处理速度相较单线程提升 10 倍。
- •断点恢复: 自动在磁盘保留页级缓存,识别中断后可无缝继续,无需重新消耗 API。
- •智能拼合:
- •PDF 模式: 自动缝合汉字断行,去除分页符。
- •文件夹模式: 显式标注每个图片来源,自动生成标题。
- •格式清理: 自动剥离 LaTeX 公式痕迹(如
$15\mathrm{g}$转为15g)。
🛠 配置说明
在使用前,请确保在 zhipu_ocr_skill/ 目录下存在 config.json:
json
{
"api_key": "你的智谱API_KEY",
"api_endpoint": "https://open.bigmodel.cn/api/paas/v4/layout_parsing",
"model_name": "glm-ocr"
}
� 环境与预检 (Pre-checks)
脚本启动时会自动检查以下内容:
- •依赖库: 确保已安装
requests和PyMuPDF (fitz)。 - •写权限: 检查当前工作目录 (CWD) 是否具备写权限,以便存放缓存和结果文件。
- •配置文件: 确保脚本目录下存在合法的
config.json。
📝 输出物与存储逻辑
为了保证工作区简洁且高效,所有生成物都将保存在用户当前执行路径 (CWD):
- •最终结果:
{文件名}_ocr_result.md - •离线缓存:
.{文件名}_cache/ - •断点续传机制: 脚本会自动通过缓存目录跳过已成功的页面。请勿在任务完成前删除此目录。如果遇到空白页报错,保留缓存可以让你在修复后仅重跑失败页面。
🛡 维护性逻辑
- •脚本中内置了
clean_markdown_text用于清洗幻觉标记。 - •脚本利用缓存机制保护处理进度。