最近有看到一个英文视频,但是里面没有字幕,对于英文不太好的同学可能比较费劲,以前知道一些视频或者大片会有专门的字幕组之类,而且还形成了专业的团队。当然目前AI技术发展的如火如荼,我也听说过一些视频处理工具之类的,所以就想试下使用AI工具自动识别来给视频添加字幕的想法,当然实则这些技术早就有了,也已经很成熟了,对于一些专门搬运视频的老铁也已经是家常便饭了,而且还有一些工具可以一键实现这些操作。最近有时间而且也是有点好奇,所以才总结这篇文章,扯远了,下面进入正题。
为英文视频添加中文字幕的核心流程可分为三步:
提取视频音频:使用 FFmpeg 从视频中分离音频文件(如 MP3 或 WAV);
语音转文字生成字幕:通过 Whisper 将音频识别为文本,并导出 SRT 格式字幕文件;
字幕合成与调整:利用剪映等工具将字幕与视频同步,并调整时间轴与样式[^综合技术]。
以下将分步骤详解各工具的使用方法及技术要点。
FFmpeg 是开源的多媒体处理框架,支持视频/音频的编解码、格式转换、裁剪合并等操作。其核心组件包括:
ffmpeg:主程序,用于音视频处理;
ffprobe:分析文件格式与元数据;
ffplay:简易播放器。
Windows 系统:
官网下载预编译包(推荐选择 release-full 版本);
解压后添加 bin 目录至系统环境变量 PATH;
命令行输入 ffmpeg -version 验证安装成功。
Linux/macOS 系统:
# Ubuntu/Debiansudo apt update && sudo apt install ffmpeg -y# CentOSsudo yum install epel-release && sudo yum install ffmpeg -y# macOS(需 Homebrew)brew install ffmpeg
推荐使用linux 系统进行,本次实现是在Ubuntu 24 系统下进行,4G内存,2核CPU,配置很低,没有GPU,所以也比较费时。
使用以下命令从视频中提取音频:
ffmpeg -i videoplayback.mp4 -ar 16000 -ac 1 -b:a 160k audio.mp3
-ar 16000:强制16kHz采样率(适配Whisper默认输入);
-ac 1:单声道(减少冗余数据);
-b:a 160k:码率控制
我第一次实验时,mp4 文件格式的视频原文件大小有35M,使用ffmpeg 提取出的无损格式的音频wav 格式确超过了100M,应该是原始视频有采用高压缩方案,这样导致后面在转SRT文件的时候时间比较长,当然我是在Ubuntu 虚拟机上实现的,4G内存,2核CPU,配置很拉胯,后来使用上面的命令使用mp3 压缩格式,码率在160k时准确率还是可以保障的。
由 OpenAI 开源的语音识别模型,支持 99 种语言的转录与翻译,具备以下特性:
多任务处理:支持语音活动检测、语种识别、时间戳对齐;
多模型选择:从轻量级 tiny 到高精度 large,覆盖不同场景需求。
模型名称 | 参数量 | 显存占用 | 适用场景 |
tiny | 39M | <1GB | 快速测试,低资源设备 |
base | 74M | 1GB | 英语优先,平衡速度与精度 |
small | 244M | 2GB | 多语言支持,中等精度 |
medium | 769M | 5GB | 高精度转录,需 GPU 加速 |
large | 1.5B | 10GB+ | 专业级转录,支持翻译任务 |
提议:
英语视频优先使用 base.en 或 small.en 模型,速度更快;
中文或其他语言推荐 small 或 medium。
步骤 1:安装依赖
pip install -U openai-whisper
步骤 2:安装 FFmpeg(若未完成)
(参考上文 FFmpeg 安装步骤)
步骤 3:生成 SRT 字幕文件
whisper input_audio.mp3 --model small --language en --output_format srt
--language en:指定音频语言为英语;
--output_format srt:导出 SRT 格式字幕。
第一次使用时会自动下载模型,后面再次使用就不需要下载了,所以第一次会比较慢。
输出示例:
1 00:00:00,000 --> 00:00:04,000Welcome to this tutorial on adding subtitles.
Hugging Face 官方源在国内下载较慢,可通过镜像站加速:
# 设置镜像环境变量(Linux/macOS)export HF_ENDPOINT=https://hf-mirror.com# Windows PowerShell$env:HF_ENDPOINT = "https://hf-mirror.com"
使用 huggingface-cli 实现断点续传与多线程下载:
huggingface-cli download --resume-download openai/whisper-medium --local-dir ./whisper-model
--resume-download:支持断点续传;
--local-dir:指定本地存储路径。
from huggingface_hub import snapshot_download snapshot_download( repo_id="openai/whisper-medium", local_dir="./whisper-model", resume_download=True)
打开剪映,导入视频文件;
点击「字幕」→「导入字幕」,选择生成的 SRT 文件;
调整字幕位置、字体大小及颜色(推荐使用黑体+白边增强可读性)。
拖动字幕块对齐语音片段;
使用「分割」功能修正长句子分段;
调整淡入淡出效果避免突兀切换。
FFmpeg:音视频处理的瑞士军刀,需掌握基础命令与环境配置;
Whisper:根据硬件条件选择模型,优先使用镜像站加速下载;
剪映:适合非专业用户的快速合成工具,进阶可研究 Aegisub 精细化调整。
字幕翻译:结合 Whisper 的 --task translate 参数直接生成中文翻译;
批量处理:编写 Shell/Python 脚本自动化提取、识别、合成流程;
GPU 加速:配置 CUDA 环境提升 Whisper 推理速度(需 NVIDIA 显卡)。
FFmpeg 官方文档:https://ffmpeg.org/documentation.html
Whisper GitHub 仓库:https://github.com/openai/whisper
剪映教程:https://www.capcut.com/support
通过本文,您可高效完成从英文视频到中文字幕的全流程处理,结合开源工具与AI技术,大幅降低创作门槛。