AgentSkillsCN

Av Transcribe

Av Transcribe

SKILL.md

av_transcribe

Capability

  • 将音频/视频转成文本(逐段 + 合并文本),并返回语言信息。
  • 支持本地绝对路径或 http/https URL。

Real-world impact

  • 外部网络请求:会调用语音转写服务(OpenAI Whisper 兼容接口 / Gemini 模式)。
  • 可能执行本地程序:某些格式(常见 amr)可能需要本机 ffmpeg 转码后再转写。

When to use

  • 用户给了语音/视频文件,让你“转文字/整理逐字稿/提取要点”。
  • 下游需要文本(摘要、翻译、时间轴、检索)。

When NOT to use

  • 用户没有提供可访问的文件路径/链接。
  • 用户只是闲聊,不需要从音视频提取信息。

Input

  • Provide one of:

    • file: 单个音视频路径(本地必须绝对路径)或 URL
    • files: 多个音视频路径/URL(批量)
  • Optional:

    • language: 语言提示(未提供则自动/由服务决定)
    • prompt: 转写提示/上下文(用于专有名词、口癖纠正等)
  • 批量优先用 files

  • 不要伪造路径/URL;拿不到就追问。

Output

  • Success data (核心字段):
    • text: 合并后的全文
    • segments: 分段数组(至少含 indextext,部分模式可能含时间戳)
    • language: { raw, code, name, hint }
    • meta: { model, file, chunks, source, rawType, raw }

Failure modes

  • NO_API_KEY: 未配置 WHISPER_API_KEY
  • INVALID: 缺少 file/files
  • FILE_NOT_FOUND/INVALID_AUDIO: 本地文件不存在/为空/格式异常。
  • UNSUPPORTED_FORMAT/FFMPEG: 常见于 amr/qq 语音,需转码或检查 FFMPEG_PATH
  • TIMEOUT: 文件太大/网络不稳定,建议截短、分段、或先下载成本地再试。