zhipu_ocr_skill

智谱 GLM-OCR 高性能解析技能 (Skill)

本 Skill 用于将图片或 PDF 文档高效转换为结构化的 Markdown 文件。它针对大型文档、医学资料、复杂排版进行了深度优化。

🌟 核心能力

•全格式支持: 兼容图片 (PNG, JPG, JPEG, WebP) 及多页 PDF。
•高并发加速: 默认 10 线程并行请求，处理速度相较单线程提升 10 倍。
•断点恢复: 自动在磁盘保留页级缓存，识别中断后可无缝继续，无需重新消耗 API。
•
智能拼合:
- •PDF 模式: 自动缝合汉字断行，去除分页符。
- •文件夹模式: 显式标注每个图片来源，自动生成标题。
•格式清理: 自动剥离 LaTeX 公式痕迹（如 $15\mathrm{g}$ 转为 15g）。

🛠 配置说明

在使用前，请确保在 zhipu_ocr_skill/ 目录下存在 config.json：

json

{
  "api_key": "你的智谱API_KEY",
  "api_endpoint": "https://open.bigmodel.cn/api/paas/v4/layout_parsing",
  "model_name": "glm-ocr"
}

� 环境与预检 (Pre-checks)

脚本启动时会自动检查以下内容：

•依赖库: 确保已安装 requests 和 PyMuPDF (fitz)。
•写权限: 检查当前工作目录 (CWD) 是否具备写权限，以便存放缓存和结果文件。
•配置文件: 确保脚本目录下存在合法的 config.json。

📝 输出物与存储逻辑

为了保证工作区简洁且高效，所有生成物都将保存在用户当前执行路径 (CWD)：

•最终结果: {文件名}_ocr_result.md
•离线缓存: .{文件名}_cache/
•断点续传机制: 脚本会自动通过缓存目录跳过已成功的页面。请勿在任务完成前删除此目录。如果遇到空白页报错，保留缓存可以让你在修复后仅重跑失败页面。

🛡 维护性逻辑

•脚本中内置了 clean_markdown_text 用于清洗幻觉标记。
•脚本利用缓存机制保护处理进度。