AgentSkillsCN

generate-subtitle

利用Whisper large-v3提取音频的时间戳,并生成SRT字幕。当TTS音频需要精准的字幕时,可使用此功能。

SKILL.md
--- frontmatter
name: generate-subtitle
description: Whisper large-v3로 오디오의 타임스탬프를 추출하고 SRT 자막을 생성합니다. TTS 오디오에 정확한 자막이 필요할 때 사용하세요.
allowed-tools:
  - Bash
  - Read
  - Write

Generate Subtitle

Whisper large-v3 모델을 사용하여 오디오 파일에서 정확한 타임스탬프를 추출하고 SRT 자막 파일을 생성합니다.

Instructions

  1. TTS로 생성된 오디오 파일 준비
  2. SubtitleSync 클래스 인스턴스 생성
  3. generate_srt() 메서드로 자막 생성
  4. SRT 파일로 저장

Usage

python
from src.quote_video.subtitle_sync import SubtitleSync

sync = SubtitleSync()
sync.generate_srt(
    audio_path="output/narration_001.wav",
    text="인생은 고통과 권태 사이를 왕복하는 진자운동이다.",
    output_path="output/subtitle_001.srt"
)

Config

항목
모델whisper-large-v3
언어Korean (ko)
TaskTranscribe
정확도단어 단위 타임스탬프

Features

  1. 한국어 최적화: Whisper large-v3의 뛰어난 한국어 인식
  2. 정확한 타이밍: 단어 단위 타임스탬프로 정밀한 싱크
  3. SRT 포맷: FFmpeg과 호환되는 표준 자막 형식
  4. 자동 분할: 긴 문장을 자동으로 적절히 분할