视频创作套件
任务目标
- •本 Skill 用于: 提供完整的视频创作能力,支持三种创作模式
- •能力包含:
- •模式一: 原创创作: 11个智能体协同原创视频创作(《三体》IP创作、通用原创)
- •模式二: 视频二创: 从原视频反推到新视频合成的完整二创流程
- •模式三: 视频分析: 视频抽帧、视觉分析、内容提取
- •技术能力: 配音生成、音效生成、背景音乐生成、视频合成
- •触发条件: 用户需要进行视频创作(原创/二创/分析)
三种创作模式
模式一: 原创创作
- •适用场景: 从零开始创作原创视频
- •子模式:
- •《三体》IP创作(专门针对《三体》IP)
- •通用多智能体协同(11个智能体分工)
- •流程: 选题策划 → 视觉设计 → 素材生成 → 视频合成 → 质量检测
模式二: 视频二创
- •适用场景: 基于现有视频进行二次创作
- •流程: 视频反推分析 → 素材生成 → 视频合成 → 文件下载
- •能力: 视频抽帧、视觉分析、图片生成、配音、音效、音乐、合成
模式三: 视频分析
- •适用场景: 分析视频内容、提取分镜参考、生成创作提示词
- •流程: 视频抽帧 → 视觉分析 → 结构化输出
- •能力: 抽帧、视觉模型调用、提示词生成
前置准备
环境依赖
code
opencv-python>=4.8.0 pillow>=10.0.0 moviepy>=1.0.3 numpy>=1.24.0 requests>=2.28.0 edge-tts>=6.1.0
API 配置(可选)
- •Coze Bot API: 视觉分析
- •环境变量:
COZE_BOT_ID,COZE_API_KEY
- •环境变量:
- •Edge-TTS: 配音生成
- •安装:
pip install edge-tts
- •安装:
- •Suno API: 背景音乐生成
- •环境变量:
SUNO_API_KEY - •三种模式: 开发者、用户、占位
- •环境变量:
操作步骤
模式选择
智能体根据用户输入自动选择模式:
判断原创创作模式
- •用户提到"创作《三体》视频"、"三体IP创作" → 《三体》IP创作
- •用户提到"多智能体协同"、"原创视频"、"从零创作" → 通用多智能体协同
判断视频二创模式
- •用户提到"二创视频"、"反推视频"、"视频重制"、"根据参考视频创作" → 视频二创
判断视频分析模式
- •用户提到"分析视频"、"提取分镜"、"生成提示词" → 视频分析
模式一: 原创创作
子模式1: 《三体》IP创作
第一阶段: 前期筹备
- •
原著考据与设定提取
- •阅读 references/three-body-settings.md
- •提取《三体2》威慑纪元核心设定
- •输出: 时间线锚点表、人物行为合规清单
- •
剧情架构设计
- •搭建"三线并行"叙事框架
- •设计3个核心冲突点和1个情感高潮
- •输出: 三线平行叙事分镜大纲、情绪曲线图
- •
台词创作
- •基于人物性格撰写台词
- •输出: 角色对白脚本(含语气/停顿标记)
第二阶段: 视觉制作
- •
视觉风格规范制定
- •阅读 references/visual-style-guide.md
- •输出: 视觉风格指南、场景/人物设计规范
- •
场景设计
- •设计3个核心场景
- •输出: 场景概念图提示词、场景要素清单
- •
人物一致性建模
- •罗辑形象锚定
- •输出: 罗辑标准形象锚定图集、人物状态对照表
- •
分镜脚本细化
- •将剧情大纲转化为专业分镜
- •输出: 电影分镜脚本(含时间码)、渲染元数据
第三阶段: 音频与剪辑
- •
素材生成
- •配音生成: 调用
scripts/voice_generator.py生成角色配音- •参数:
--input <旁白数据JSON> --output ./output/audio/voice
- •参数:
- •音效生成: 调用
scripts/sound_generator.py --type sound生成音效- •参数:
--input <音效配置JSON> --output ./output/audio/sound_effects
- •参数:
- •背景音乐生成: 调用
scripts/sound_generator.py --type music生成背景音乐- •参数:
--input <音乐配置JSON> --output ./output/audio/background_music
- •参数:
- •视频合成: 调用
scripts/video_compositor.py合成最终视频- •参数:
--images <图片目录> --audio <音频目录> --subtitles <字幕文件> --output <输出路径>
- •参数:
- •配音生成: 调用
- •
质量管控
- •调用
scripts/quality_checker.py检测技术指标 - •原著合规检测
- •B站适配优化
- •调用
子模式2: 通用多智能体协同
11个智能体分工
- •文案创作
- •故事策划
- •脚本创作
- •分镜导演
- •分镜画师
- •字幕师
- •配音师
- •音效师
- •视频工程师
- •质检
- •数据反馈
5阶段协同流程
- •需求承接
- •内容创作
- •生图创作
- •音频字幕
- •视频合成
- •全流程质检
- •数据迭代
模式二: 视频二创
第一阶段: 视频反推分析
- •
提取视频关键帧
- •调用
scripts/video_frame_extractor.py提取关键帧 - •参数:
--input <原视频路径> --output ./output/frames --interval 2 - •输出: 序列图片到
./output/frames/
- •调用
- •
视觉分析
- •调用
scripts/coze_bot_client.py分析关键帧 - •智能体描述分析需求: "分析这些视频帧,提取:画面风格、色调特征、构图方式、节奏模式"
- •输出: 分析结果保存到
./output/analysis.json
- •调用
- •
生成创作方案
- •智能体根据分析结果,生成二创方案
- •输出: 新视频主题、画面风格调整、脚本大纲、素材需求清单
第二阶段: 素材生成
- •
生成图片素材
- •智能体根据脚本生成关键帧提示词
- •调用
scripts/image_generator.py生成图片 - •输出: 图片到
./output/images/
- •
生成配音
- •智能体作为配音师,创作旁白脚本
- •调用
scripts/voice_generator.py合成配音(基于Edge-TTS) - •参数:
--input <旁白脚本JSON> --output ./output/voice - •输出: 配音文件到
./output/voice/
- •
生成音效和背景音乐
- •调用
scripts/sound_generator.py --type both生成音效和背景音乐 - •参数:
--input <完整配置JSON> --output ./output/audio - •输出: 音效到
./output/audio/sound_effects/, 背景音乐到./output/audio/background_music/
- •调用
- •
生成字幕
- •智能体创作字幕内容
- •调用
scripts/subtitle_generator.py生成字幕文件 - •参数:
--input <字幕数据JSON> --output ./output/subtitles - •输出: SRT字幕到
./output/subtitles/
第三阶段: 视频合成
- •
合成最终视频
- •调用
scripts/video_compositor.py合成视频 - •参数:
--images ./output/images --audio ./output/audio --voice ./output/voice --subtitles ./output/subtitles --output ./output/final.mp4 - •输出: 最终视频
./output/final.mp4
- •调用
- •
文件下载
- •调用
scripts/file_server.py启动HTTP服务器 - •参数:
--port 8080 --directory ./output - •输出: 下载链接
http://localhost:8080/final.mp4
- •调用
模式三: 视频分析
分析流程
- •
视频抽帧
- •调用
scripts/video_frame_extractor.py提取关键帧 - •参数:
--input <视频路径> --output <输出目录> --interval <间隔秒数>
- •调用
- •
视觉分析
- •调用
scripts/coze_bot_client.py分析每帧内容 - •参数:
--message "<分析提示>" --image_path <图片路径> - •输出: 结构化分析结果(JSON格式)
- •调用
- •
批量处理
- •自动遍历所有关键帧
- •批量调用视觉模型
- •汇总分析结果
资源索引
技术脚本
- •视频处理: scripts/video_frame_extractor.py - 提取关键帧
- •视觉分析: scripts/coze_bot_client.py - 调用Coze Bot API
- •图像生成: scripts/image_generator.py - 生成图片素材
- •配音生成: scripts/voice_generator.py - 生成配音(Edge-TTS)
- •音效和音乐: scripts/sound_generator.py - 生成音效和背景音乐(Suno API)
- •字幕生成: scripts/subtitle_generator.py - 生成字幕
- •视频合成: scripts/video_compositor.py - 合成最终视频
- •文件服务: scripts/file_server.py - HTTP下载服务器
- •质量检测: scripts/quality_checker.py - 检测技术指标
- •错误处理: scripts/error_handler.py - 重试和错误日志
参考文档
- •
《三体》IP创作:
- •references/three-body-settings.md - 《三体》原著设定与威慑纪元规则
- •references/visual-style-guide.md - 视觉风格规范与设计原则
- •references/storyboard-template.md - 分镜脚本标准模板
- •references/character-profiles.md - 人物档案与行为准则
- •
视频二创:
- •references/recreation-guide.md - 视频二创方法论
- •references/prompt-templates.md - 分析提示词示例
- •references/suno-api-guide.md - Suno API使用指南
资源文件
- •assets/scene-examples/ - 场景设计提示词示例
- •assets/character-reference/ - 人物形象描述参考
注意事项
- •模式自动选择: 智能体根据用户输入自动选择合适的创作模式
- •脚本共享: 所有模式共享同一套技术脚本,避免重复
- •API配置: 所有API通过环境变量配置,支持多种模式
- •错误处理: 所有脚本都包含错误处理和重试机制
- •容错降级: API不可用时自动降级为占位实现
使用示例
示例1: 《三体》IP创作
code
用户: "帮我创作一个《三体》威慑纪元的8分钟视频" 智能体执行: 1. 自动选择模式一: 《三体》IP创作 2. 按照前期筹备 → 视觉制作 → 音频与剪辑 → 质量管控流程 3. 调用相应脚本生成配音、音效、背景音乐 4. 合成最终视频
示例2: 视频二创
code
用户: "这个视频帮我二创一下,换个风格" 智能体执行: 1. 自动选择模式二: 视频二创 2. 提取原视频关键帧 3. 视觉分析,提取风格特征 4. 生成新素材(图片、配音、音效、音乐) 5. 合成新视频
示例3: 视频分析
code
用户: "分析这个视频,提取分镜和提示词" 智能体执行: 1. 自动选择模式三: 视频分析 2. 抽取视频关键帧 3. 分析每帧内容 4. 输出结构化分析结果
API 配置说明
Suno API 三种模式
- •开发者模式: 技能预置 API Key,开箱即用
- •用户模式: 用户配置自己的 API Key
- •占位模式: 自动降级,完全免费
Edge-TTS 音色列表
- •中文: zh-CN-XiaoxiaoNeural(活泼)、zh-CN-XiaomengNeural(温柔)、zh-CN-YunyangNeural(沉稳)
- •英文: en-US-JennyNeural(美式)、en-GB-SoniaNeural(英式)
Coze Bot API
- •用于视觉分析
- •环境变量: COZE_BOT_ID, COZE_API_KEY