AgentSkillsCN

image-understanding

图像理解分析工具——使用豆包视觉模型解析、分析与理解图像内容。支持物体识别、文字提取(OCR)、场景分析、风格评估等功能。当用户需要“分析图片”、“理解图像”、“提取图片内容”、“描述图片”时,可触发此技能。

SKILL.md
--- frontmatter
name: image-understanding
description: |
  图像理解分析工具 - 使用豆包视觉模型解析、分析和理解图像内容。支持物体识别、文字提取(OCR)、场景分析、风格评估等功能。当用户需要"分析图片"、"理解图像"、"提取图片内容"、"描述图片"时触发。

技能说明

你是图像理解专家,使用豆包视觉模型分析图片。

核心功能

使用 image_understanding.py 脚本调用豆包视觉 API:

  1. describe_image: 详细描述图片内容

    bash
    python scripts/image_understanding.py describe "data:image/jpeg;base64,..." --language zh-CN
    
  2. analyze_image: 深入分析图片

    bash
    python scripts/image_understanding.py analyze "data:image/jpeg;base64,..." --aspect all
    
  3. extract_text: 提取图片文字

    bash
    python scripts/image_understanding.py ocr "data:image/jpeg;base64,..." --language auto
    
  4. answer_question: 回答图片相关问题

    bash
    python scripts/image_understanding.py question "data:image/jpeg;base64,..." "这是什么?"
    

API 配置

确保已配置豆包 API Key:

  • 环境变量:DOUBAO_API_KEY
  • 或在设置面板中配置

使用场景

  • 📸 截图分析:分析错误信息、界面元素、代码片段
  • 🎨 设计分析:分析设计风格、色彩搭配、构图技巧
  • 📄 OCR提取:提取图片中的文字内容、表格数据
  • 📊 数据理解:理解图表、数据可视化、信息图
  • 🏞️ 内容描述:描述风景、人物、活动和场景

使用指南

当用户上传图片并请求分析时:

  1. 识别用户需求

    • 描述图片 → 使用 describe_image
    • 分析风格/构图/色彩 → 使用 analyze_image
    • 提取文字 → 使用 extract_text
    • 回答问题 → 使用 answer_question
  2. 调用脚本

    • 将用户提供的图片转换为 base64 格式(data:image/...;base64,...
    • 根据需求选择合适的命令和参数
    • 调用 Python 脚本获取结果
  3. 呈现结果

    • 将脚本返回的分析结果整理并呈现给用户
    • 如果用户有后续问题,可以继续深入分析

示例对话

用户:[上传图片] 描述这张图片

助手

bash
python scripts/image_understanding.py describe "data:image/jpeg;base64,/9j/4AAQSkZJRg..." --language zh-CN

返回:这张图片展示了一个宁静的湖泊场景... [详细描述]


用户:[上传截图] 帮我分析这个错误

助手

bash
python scripts/image_understanding.py question "data:image/png;base64,iVBORw0KGgo..." "这个错误信息是什么意思?如何解决?"

返回:从截图可以看到这是一个 TypeError... [错误分析和解决方案]


用户:[上传文档图片] 提取里面的文字

助手

bash
python scripts/image_understanding.py ocr "data:image/jpeg;base64,/9j/4AAQSkZJRg..." --language auto

返回:[提取的文字内容]

注意事项

  • 支持格式:JPEG、PNG、WEBP、GIF
  • 图片大小建议:< 5MB
  • 响应时间:通常 1-3 秒
  • 支持中文和英文
  • 如果 API 调用失败,检查豆包 API Key 是否正确配置