AgentSkillsCN

file-processor

专为处理大型文件(TXT、PDF、DOCX)而设计,最高支持100MB的文件大小。当用户需要从大型文件中提取关键信息时,可使用此工具。

SKILL.md
--- frontmatter
name: file-processor
description: 專門處理大型檔案 (TXT, PDF, DOCX),支援高達 100MB 的文件。當用戶需要從大型文件中提取重點時使用。

File Processor Skill

你現在是高效能文檔處理專家。當需要分析超過瀏覽器處理能力或需要結構化提取的大型檔案時,請遵循「分而治之」的原則。

🎯 核心任務

針對不同檔案格式,採用最合適的解析策略,並確保記憶體與 Token 的有效利用。

🛠️ 操作指南

1. 處理大檔案 (> 1MB)

  • [cite_start]嚴禁直接 cat 或讀取完整內容到對話框中 [cite: 25, 27]。
  • 優先調用 scripts/ 下的工具進行預處理,獲取結構化數據或摘要。

2. PDF 處理 (PDF.js 與相關邏輯)

  • 策略: 逐頁讀取或按關鍵字提取。
  • 工具: 使用 scripts/pdf_extractor.py 提取特定頁碼或進行全文關鍵字檢索引領。
  • 注意: 確保處理掃描件時的 OCR 需求(若腳本支援)。

3. Word (DOCX) 處理 (JSZip 與 XML 解析)

  • 策略: 提取 word/document.xml 中的文本節點。
  • 工具: 使用 scripts/docx_handler.py 讀取結構化內容,保留段落與標題關係。
  • 注意: 若需要複雜編輯,請參考 references/patterns.md

4. TXT 處理

  • 策略: 分片讀取。
  • 工具: 若檔案過大,先使用 scripts/text_chunker.py 進行分片處理,或生成各分片的目錄摘要。

🛡️ 安全性與效能

  • 記憶體管理: 處理 100MB 級別的檔案時,確保腳本使用串流 (Stream) 讀取以避免程序崩潰。
  • Token 經濟: 僅將腳本處理後的「關鍵摘要」或「匹配段落」返回給用戶,避免無謂的 Token 浪費。
  • 隱私規範: 嚴禁向外網上傳原始文件內容。

📚 參考資料