多模态生成 Skill
多模态内容生成(图片、视频)。当用户需要生成图片、生成图像、生成视频、AI绘画、AI作图、画一张图、做个视频时使用此技能。自动优化提示词后调用生成模型。
触发条件
当用户需要:
- •生成图片/图像/AI绘画
- •生成视频
- •图像理解/分析
工作流程
code
用户输入 → DeepSeek V3.2 优化提示词 → 生成模型 → 输出文件
统一入口
bash
python3 ~/clawd/skills/multimodal-gen/generate.py "描述" [image|video] [model]
示例
bash
# 生成图片(默认 gemini) python3 ~/clawd/skills/multimodal-gen/generate.py "可爱的猫咪在阳光下睡觉" # 生成图片(指定模型) python3 ~/clawd/skills/multimodal-gen/generate.py "赛博朋克城市" image flux # 生成视频(默认 veo3.1) python3 ~/clawd/skills/multimodal-gen/generate.py "海浪拍打礁石" video # 跳过优化 python3 ~/clawd/skills/multimodal-gen/generate.py "prompt" image --no-optimize
图像生成
默认模型
- •
gemini→ gemini-3-pro-image-preview ⭐默认
其他模型
- •
flux→ flux-pro-max - •
flux-ultra→ flux-pro-1.1-ultra - •
imagen→ google/imagen-4-ultra - •
dalle→ gpt-image-1 - •
kling→ kling-image - •
seedream→ doubao-seedream-4-5-251128
输出
- •图片保存到
~/clawd/output/images/
视频生成
默认模型
- •
veo3.1→ veo3.1 ⭐默认(普通版,性价比高)
其他模型
- •
veo3.1-4k→ veo3.1-4k - •
veo3.1-pro→ veo3.1-pro - •
veo3→ veo3 - •
sora2→ sora-2-all - •
kling→ kling-video - •
hailuo→ MiniMax-Hailuo-2.3 - •
runway→ runwayml-gen4_turbo-10 - •
grok→ grok-video-3
⚠️ 异步生成流程(重要!)
视频生成耗时较长(1-5分钟),必须使用 spawn 子任务,不要阻塞 main agent!
正确做法:
python
# 在 main agent 中使用 sessions_spawn
sessions_spawn(
task="生成视频:xxx描述,使用 veo3.1 模型。完成后发送给用户。",
label="video-gen-xxx"
)
子任务流程:
- •优化 prompt
- •提交视频任务,获取 task_id
- •轮询查询状态(每 10 秒)
- •完成后下载视频并发送给用户
命令行用法
bash
# 提交任务(立即返回) python3 ~/clawd/skills/multimodal-gen/generate_video.py submit "prompt" [model] # 查询任务状态 python3 ~/clawd/skills/multimodal-gen/generate_video.py query <task_id> # 一键生成(阻塞等待,仅用于子任务) python3 ~/clawd/skills/multimodal-gen/generate_video.py "prompt" [model]
输出
- •视频保存到
~/clawd/output/videos/
Prompt 优化器
使用 DeepSeek V3.2 自动优化提示词:
- •翻译成英文
- •添加艺术风格、画质、光影、构图描述
- •自动规避敏感词(如 loli → young girl)
单独调用:
bash
python3 ~/clawd/skills/multimodal-gen/prompt_optimizer.py "描述" [image|video]
API 配置
- •Base URL: https://xingjiabiapi.com/v1
- •API Key:
pass api/xingjiabiapi - •优化模型: deepseek-v3.2
注意事项
- •图像生成约 10-30 秒
- •视频生成约 1-5 分钟
- •生成完成后将文件发送给用户
- •Gemini 对某些内容敏感,优化器会自动处理