AgentSkillsCN

documents-ocr

异步文档采集与OCR流程(S3 + BullMQ + Google Vision)、数据校验与书写建议。关键词:上传、OCR、BullMQ、文档状态、S3、发票解析。

SKILL.md
--- frontmatter
name: documents-ocr
description: Pipeline de collecte documentaire et OCR asynchrone (S3 + BullMQ + Google Vision), validation et proposition d’écriture. Mots-clés: upload, OCR, BullMQ, document status, S3, parsing facture.

Skill: Documents & OCR

Utilise ce skill pour toute fonctionnalité de collecte documentaire, OCR et validation comptable assistée.

Quand l’utiliser

  • Upload de documents (web/mobile/email/import ZIP)
  • Stockage S3-compatible et accès via URLs pré-signées
  • Jobs BullMQ OCR (ocr-process) avec mise à jour de statut
  • Écran de validation OCR et génération de proposition d’écriture

Pipeline obligatoire

  1. Upload reçu et validé (MIME, taille, tenant).
  2. Stockage du fichier original sur S3.
  3. Enqueue job BullMQ OCR.
  4. Extraction OCR (montants, date, numéro facture, tiers, IBAN) + score confiance.
  5. Mise à jour Document.status vers OCR_DONE + ocrData + ocrConfidence.
  6. Proposition d’écriture automatique, puis validation manuelle (ou auto si règle définie).

États document à respecter

  • PENDING_OCR
  • OCR_DONE
  • VALIDATED
  • REJECTED

Règles d’implémentation

  • Isoler les objets S3 par clientDossierId.
  • Journaliser les transitions de statut et rejets.
  • Émettre des notifications temps réel (socket.io) sur fin OCR.
  • Prévoir fallback/retry des jobs OCR en cas d’échec externe.

UI de validation OCR

  • Vue document + formulaire côte à côte.
  • Champs faibles confiances (<80%) explicitement signalés.
  • Actions: Valider, Rejeter, Demander original.

Exemples de demandes

  • « Ajoute le worker BullMQ OCR avec retry exponentiel »
  • « Implémente la route de validation OCR qui crée l’écriture »
  • « Ajoute l’import ZIP multi-documents avec jobs batch »