视频创作套件

任务目标

•本 Skill 用于: 提供完整的视频创作能力，支持三种创作模式
•
能力包含:
- •模式一: 原创创作: 11个智能体协同原创视频创作（《三体》IP创作、通用原创）
- •模式二: 视频二创: 从原视频反推到新视频合成的完整二创流程
- •模式三: 视频分析: 视频抽帧、视觉分析、内容提取
- •技术能力: 配音生成、音效生成、背景音乐生成、视频合成
•触发条件: 用户需要进行视频创作（原创/二创/分析）

三种创作模式

模式一: 原创创作

•适用场景: 从零开始创作原创视频
•
子模式:
- •《三体》IP创作（专门针对《三体》IP）
- •通用多智能体协同（11个智能体分工）
•流程: 选题策划 → 视觉设计 → 素材生成 → 视频合成 → 质量检测

模式二: 视频二创

•适用场景: 基于现有视频进行二次创作
•流程: 视频反推分析 → 素材生成 → 视频合成 → 文件下载
•能力: 视频抽帧、视觉分析、图片生成、配音、音效、音乐、合成

模式三: 视频分析

•适用场景: 分析视频内容、提取分镜参考、生成创作提示词
•流程: 视频抽帧 → 视觉分析 → 结构化输出
•能力: 抽帧、视觉模型调用、提示词生成

前置准备

环境依赖

code

opencv-python>=4.8.0
pillow>=10.0.0
moviepy>=1.0.3
numpy>=1.24.0
requests>=2.28.0
edge-tts>=6.1.0

API 配置（可选）

•
Coze Bot API: 视觉分析
- •环境变量: COZE_BOT_ID, COZE_API_KEY
•
Edge-TTS: 配音生成
- •安装: pip install edge-tts
•
Suno API: 背景音乐生成
- •环境变量: SUNO_API_KEY
- •三种模式: 开发者、用户、占位

操作步骤

模式选择

智能体根据用户输入自动选择模式：

判断原创创作模式

•用户提到"创作《三体》视频"、"三体IP创作" → 《三体》IP创作
•用户提到"多智能体协同"、"原创视频"、"从零创作" → 通用多智能体协同

判断视频二创模式

•用户提到"二创视频"、"反推视频"、"视频重制"、"根据参考视频创作" → 视频二创

判断视频分析模式

•用户提到"分析视频"、"提取分镜"、"生成提示词" → 视频分析

模式一: 原创创作

子模式1: 《三体》IP创作

第一阶段: 前期筹备

•
原著考据与设定提取
- •阅读 references/three-body-settings.md
- •提取《三体2》威慑纪元核心设定
- •输出: 时间线锚点表、人物行为合规清单
•
剧情架构设计
- •搭建"三线并行"叙事框架
- •设计3个核心冲突点和1个情感高潮
- •输出: 三线平行叙事分镜大纲、情绪曲线图
•
台词创作
- •基于人物性格撰写台词
- •输出: 角色对白脚本（含语气/停顿标记）

第二阶段: 视觉制作

•
视觉风格规范制定
- •阅读 references/visual-style-guide.md
- •输出: 视觉风格指南、场景/人物设计规范
•
场景设计
- •设计3个核心场景
- •输出: 场景概念图提示词、场景要素清单
•
人物一致性建模
- •罗辑形象锚定
- •输出: 罗辑标准形象锚定图集、人物状态对照表
•
分镜脚本细化
- •将剧情大纲转化为专业分镜
- •输出: 电影分镜脚本（含时间码）、渲染元数据

第三阶段: 音频与剪辑

•
素材生成
- •
  配音生成: 调用 scripts/voice_generator.py 生成角色配音
  - •参数: --input <旁白数据JSON> --output ./output/audio/voice
- •
  音效生成: 调用 scripts/sound_generator.py --type sound 生成音效
  - •参数: --input <音效配置JSON> --output ./output/audio/sound_effects
- •
  背景音乐生成: 调用 scripts/sound_generator.py --type music 生成背景音乐
  - •参数: --input <音乐配置JSON> --output ./output/audio/background_music
- •
  视频合成: 调用 scripts/video_compositor.py 合成最终视频
  - •参数: --images <图片目录> --audio <音频目录> --subtitles <字幕文件> --output <输出路径>
•
质量管控
- •调用 scripts/quality_checker.py 检测技术指标
- •原著合规检测
- •B站适配优化

子模式2: 通用多智能体协同

11个智能体分工

•文案创作
•故事策划
•脚本创作
•分镜导演
•分镜画师
•字幕师
•配音师
•音效师
•视频工程师
•质检
•数据反馈

5阶段协同流程

•需求承接
•内容创作
•生图创作
•音频字幕
•视频合成
•全流程质检
•数据迭代

模式二: 视频二创

第一阶段: 视频反推分析

•
提取视频关键帧
- •调用 scripts/video_frame_extractor.py 提取关键帧
- •参数: --input <原视频路径> --output ./output/frames --interval 2
- •输出: 序列图片到 ./output/frames/
•
视觉分析
- •调用 scripts/coze_bot_client.py 分析关键帧
- •智能体描述分析需求: "分析这些视频帧，提取:画面风格、色调特征、构图方式、节奏模式"
- •输出: 分析结果保存到 ./output/analysis.json
•
生成创作方案
- •智能体根据分析结果，生成二创方案
- •输出: 新视频主题、画面风格调整、脚本大纲、素材需求清单

第二阶段: 素材生成

•
生成图片素材
- •智能体根据脚本生成关键帧提示词
- •调用 scripts/image_generator.py 生成图片
- •输出: 图片到 ./output/images/
•
生成配音
- •智能体作为配音师，创作旁白脚本
- •调用 scripts/voice_generator.py 合成配音（基于Edge-TTS）
- •参数: --input <旁白脚本JSON> --output ./output/voice
- •输出: 配音文件到 ./output/voice/
•
生成音效和背景音乐
- •调用 scripts/sound_generator.py --type both 生成音效和背景音乐
- •参数: --input <完整配置JSON> --output ./output/audio
- •输出: 音效到 ./output/audio/sound_effects/, 背景音乐到 ./output/audio/background_music/
•
生成字幕
- •智能体创作字幕内容
- •调用 scripts/subtitle_generator.py 生成字幕文件
- •参数: --input <字幕数据JSON> --output ./output/subtitles
- •输出: SRT字幕到 ./output/subtitles/

第三阶段: 视频合成

•
合成最终视频
- •调用 scripts/video_compositor.py 合成视频
- •参数: --images ./output/images --audio ./output/audio --voice ./output/voice --subtitles ./output/subtitles --output ./output/final.mp4
- •输出: 最终视频 ./output/final.mp4
•
文件下载
- •调用 scripts/file_server.py 启动HTTP服务器
- •参数: --port 8080 --directory ./output
- •输出: 下载链接 http://localhost:8080/final.mp4

模式三: 视频分析

分析流程

•
视频抽帧
- •调用 scripts/video_frame_extractor.py 提取关键帧
- •参数: --input <视频路径> --output <输出目录> --interval <间隔秒数>
•
视觉分析
- •调用 scripts/coze_bot_client.py 分析每帧内容
- •参数: --message "<分析提示>" --image_path <图片路径>
- •输出: 结构化分析结果（JSON格式）
•
批量处理
- •自动遍历所有关键帧
- •批量调用视觉模型
- •汇总分析结果

资源索引

技术脚本

•视频处理: scripts/video_frame_extractor.py - 提取关键帧
•视觉分析: scripts/coze_bot_client.py - 调用Coze Bot API
•图像生成: scripts/image_generator.py - 生成图片素材
•配音生成: scripts/voice_generator.py - 生成配音（Edge-TTS）
•音效和音乐: scripts/sound_generator.py - 生成音效和背景音乐（Suno API）
•字幕生成: scripts/subtitle_generator.py - 生成字幕
•视频合成: scripts/video_compositor.py - 合成最终视频
•文件服务: scripts/file_server.py - HTTP下载服务器
•质量检测: scripts/quality_checker.py - 检测技术指标
•错误处理: scripts/error_handler.py - 重试和错误日志

参考文档

•
《三体》IP创作:
- •references/three-body-settings.md - 《三体》原著设定与威慑纪元规则
- •references/visual-style-guide.md - 视觉风格规范与设计原则
- •references/storyboard-template.md - 分镜脚本标准模板
- •references/character-profiles.md - 人物档案与行为准则
•
视频二创:
- •references/recreation-guide.md - 视频二创方法论
- •references/prompt-templates.md - 分析提示词示例
- •references/suno-api-guide.md - Suno API使用指南

资源文件

•assets/scene-examples/ - 场景设计提示词示例
•assets/character-reference/ - 人物形象描述参考

注意事项

•模式自动选择: 智能体根据用户输入自动选择合适的创作模式
•脚本共享: 所有模式共享同一套技术脚本，避免重复
•API配置: 所有API通过环境变量配置，支持多种模式
•错误处理: 所有脚本都包含错误处理和重试机制
•容错降级: API不可用时自动降级为占位实现

使用示例

示例1: 《三体》IP创作

code

用户: "帮我创作一个《三体》威慑纪元的8分钟视频"

智能体执行:
1. 自动选择模式一: 《三体》IP创作
2. 按照前期筹备 → 视觉制作 → 音频与剪辑 → 质量管控流程
3. 调用相应脚本生成配音、音效、背景音乐
4. 合成最终视频

示例2: 视频二创

code

用户: "这个视频帮我二创一下，换个风格"

智能体执行:
1. 自动选择模式二: 视频二创
2. 提取原视频关键帧
3. 视觉分析，提取风格特征
4. 生成新素材（图片、配音、音效、音乐）
5. 合成新视频

示例3: 视频分析

code

用户: "分析这个视频，提取分镜和提示词"

智能体执行:
1. 自动选择模式三: 视频分析
2. 抽取视频关键帧
3. 分析每帧内容
4. 输出结构化分析结果

API 配置说明

Suno API 三种模式

•开发者模式: 技能预置 API Key，开箱即用
•用户模式: 用户配置自己的 API Key
•占位模式: 自动降级，完全免费

Edge-TTS 音色列表

•中文: zh-CN-XiaoxiaoNeural(活泼)、zh-CN-XiaomengNeural(温柔)、zh-CN-YunyangNeural(沉稳)
•英文: en-US-JennyNeural(美式)、en-GB-SoniaNeural(英式)

Coze Bot API

•用于视觉分析
•环境变量: COZE_BOT_ID, COZE_API_KEY