av_transcribe
Capability
- •将音频/视频转成文本(逐段 + 合并文本),并返回语言信息。
- •支持本地绝对路径或 http/https URL。
Real-world impact
- •外部网络请求:会调用语音转写服务(OpenAI Whisper 兼容接口 / Gemini 模式)。
- •可能执行本地程序:某些格式(常见 amr)可能需要本机
ffmpeg转码后再转写。
When to use
- •用户给了语音/视频文件,让你“转文字/整理逐字稿/提取要点”。
- •下游需要文本(摘要、翻译、时间轴、检索)。
When NOT to use
- •用户没有提供可访问的文件路径/链接。
- •用户只是闲聊,不需要从音视频提取信息。
Input
- •
Provide one of:
- •
file: 单个音视频路径(本地必须绝对路径)或 URL - •
files: 多个音视频路径/URL(批量)
- •
- •
Optional:
- •
language: 语言提示(未提供则自动/由服务决定) - •
prompt: 转写提示/上下文(用于专有名词、口癖纠正等)
- •
- •
批量优先用
files。 - •
不要伪造路径/URL;拿不到就追问。
Output
- •Success
data(核心字段):- •
text: 合并后的全文 - •
segments: 分段数组(至少含index、text,部分模式可能含时间戳) - •
language:{ raw, code, name, hint } - •
meta:{ model, file, chunks, source, rawType, raw }
- •
Failure modes
- •
NO_API_KEY: 未配置WHISPER_API_KEY。 - •
INVALID: 缺少file/files。 - •
FILE_NOT_FOUND/INVALID_AUDIO: 本地文件不存在/为空/格式异常。 - •
UNSUPPORTED_FORMAT/FFMPEG: 常见于 amr/qq 语音,需转码或检查FFMPEG_PATH。 - •
TIMEOUT: 文件太大/网络不稳定,建议截短、分段、或先下载成本地再试。