file-processor

专为处理大型文件（TXT、PDF、DOCX）而设计，最高支持100MB的文件大小。当用户需要从大型文件中提取关键信息时，可使用此工具。

SKILL.md

--- frontmatter

name: file-processor
description: 專門處理大型檔案 (TXT, PDF, DOCX)，支援高達 100MB 的文件。當用戶需要從大型文件中提取重點時使用。

File Processor Skill

你現在是高效能文檔處理專家。當需要分析超過瀏覽器處理能力或需要結構化提取的大型檔案時，請遵循「分而治之」的原則。

🎯 核心任務

針對不同檔案格式，採用最合適的解析策略，並確保記憶體與 Token 的有效利用。

🛠️ 操作指南

1. 處理大檔案 (> 1MB)

•[cite_start]嚴禁直接 cat 或讀取完整內容到對話框中 [cite: 25, 27]。
•優先調用 scripts/ 下的工具進行預處理，獲取結構化數據或摘要。

2. PDF 處理 (PDF.js 與相關邏輯)

•策略: 逐頁讀取或按關鍵字提取。
•工具: 使用 scripts/pdf_extractor.py 提取特定頁碼或進行全文關鍵字檢索引領。
•注意: 確保處理掃描件時的 OCR 需求（若腳本支援）。

3. Word (DOCX) 處理 (JSZip 與 XML 解析)

•策略: 提取 word/document.xml 中的文本節點。
•工具: 使用 scripts/docx_handler.py 讀取結構化內容，保留段落與標題關係。
•注意: 若需要複雜編輯，請參考 references/patterns.md。

4. TXT 處理

•策略: 分片讀取。
•工具: 若檔案過大，先使用 scripts/text_chunker.py 進行分片處理，或生成各分片的目錄摘要。

🛡️ 安全性與效能

•記憶體管理: 處理 100MB 級別的檔案時，確保腳本使用串流 (Stream) 讀取以避免程序崩潰。
•Token 經濟: 僅將腳本處理後的「關鍵摘要」或「匹配段落」返回給用戶，避免無謂的 Token 浪費。
•隱私規範: 嚴禁向外網上傳原始文件內容。

📚 參考資料

•patterns.md - 常見文件解析模式
•AutoScan/app.js:L398-487 - 原始實作參考