最近有看到一个英文视频，但是里面没有字幕，对于英文不太好的同学可能比较费劲，以前知道一些视频或者大片会有专门的字幕组之类，而且还形成了专业的团队。当然目前AI技术发展的如火如荼，我也听说过一些视频处理工具之类的，所以就想试下使用AI工具自动识别来给视频添加字幕的想法，当然实则这些技术早就有了，也已经很成熟了，对于一些专门搬运视频的老铁也已经是家常便饭了，而且还有一些工具可以一键实现这些操作。最近有时间而且也是有点好奇，所以才总结这篇文章，扯远了，下面进入正题。

一、整体流程概述

为英文视频添加中文字幕的核心流程可分为三步：

提取视频音频：使用 FFmpeg 从视频中分离音频文件（如 MP3 或 WAV）；
语音转文字生成字幕：通过 Whisper 将音频识别为文本，并导出 SRT 格式字幕文件；
字幕合成与调整：利用剪映等工具将字幕与视频同步，并调整时间轴与样式[^综合技术]。

以下将分步骤详解各工具的使用方法及技术要点。

二、FFmpeg：音视频处理的核心工具

1. FFmpeg 简介

FFmpeg 是开源的多媒体处理框架，支持视频/音频的编解码、格式转换、裁剪合并等操作。其核心组件包括：

ffmpeg：主程序，用于音视频处理；
ffprobe：分析文件格式与元数据；
ffplay：简易播放器。

2. 安装与验证

Windows 系统：

官网下载预编译包（推荐选择 release-full 版本）；
解压后添加 bin 目录至系统环境变量 PATH；
命令行输入 ffmpeg -version 验证安装成功。

Linux/macOS 系统：

# Ubuntu/Debiansudo apt update && sudo apt install ffmpeg -y# CentOSsudo yum install epel-release && sudo yum install ffmpeg -y# macOS（需 Homebrew）brew install ffmpeg

推荐使用linux 系统进行，本次实现是在Ubuntu 24 系统下进行，4G内存，2核CPU，配置很低，没有GPU，所以也比较费时。

3. 提取视频音频

使用以下命令从视频中提取音频：

ffmpeg -i videoplayback.mp4 -ar 16000 -ac 1 -b:a 160k audio.mp3

-ar 16000：强制16kHz采样率（适配Whisper默认输入）；
-ac 1：单声道（减少冗余数据）；
-b:a 160k：码率控制

压缩格式的实践提议

我第一次实验时，mp4 文件格式的视频原文件大小有35M，使用ffmpeg 提取出的无损格式的音频wav 格式确超过了100M，应该是原始视频有采用高压缩方案，这样导致后面在转SRT文件的时候时间比较长，当然我是在Ubuntu 虚拟机上实现的，4G内存，2核CPU，配置很拉胯，后来使用上面的命令使用mp3 压缩格式，码率在160k时准确率还是可以保障的。

三、Whisper：高精度语音识别引擎

1. Whisper 简介

由 OpenAI 开源的语音识别模型，支持 99 种语言的转录与翻译，具备以下特性：

多任务处理：支持语音活动检测、语种识别、时间戳对齐；
多模型选择：从轻量级 tiny 到高精度 large，覆盖不同场景需求。

2. 模型选择与性能对比

模型名称	参数量	显存占用	适用场景
tiny	39M	<1GB	快速测试，低资源设备
base	74M	1GB	英语优先，平衡速度与精度
small	244M	2GB	多语言支持，中等精度
medium	769M	5GB	高精度转录，需 GPU 加速
large	1.5B	10GB+	专业级转录，支持翻译任务

提议：

英语视频优先使用 base.en 或 small.en 模型，速度更快；
中文或其他语言推荐 small 或 medium。

3. 安装与使用

步骤 1：安装依赖

pip install -U openai-whisper

步骤 2：安装 FFmpeg（若未完成）
（参考上文 FFmpeg 安装步骤）

步骤 3：生成 SRT 字幕文件

whisper input_audio.mp3 --model small --language en --output_format srt

--language en：指定音频语言为英语；
--output_format srt：导出 SRT 格式字幕。

第一次使用时会自动下载模型，后面再次使用就不需要下载了，所以第一次会比较慢。

输出示例：

1
00:00:00,000 --> 00:00:04,000Welcome to this tutorial on adding subtitles.

四、Hugging Face 模型加速下载

1. 国内镜像站使用

Hugging Face 官方源在国内下载较慢，可通过镜像站加速：

# 设置镜像环境变量（Linux/macOS）export HF_ENDPOINT=https://hf-mirror.com# Windows PowerShell$env:HF_ENDPOINT = "https://hf-mirror.com"

2. 命令行工具下载

使用 huggingface-cli 实现断点续传与多线程下载：

huggingface-cli download --resume-download openai/whisper-medium --local-dir ./whisper-model

--resume-download：支持断点续传；
--local-dir：指定本地存储路径。

3. Python 脚本下载

from huggingface_hub import snapshot_download
snapshot_download(
    repo_id="openai/whisper-medium",
    local_dir="./whisper-model",
    resume_download=True)

五、剪映：字幕合成与调整

1. 导入视频与字幕

打开剪映，导入视频文件；
点击「字幕」→「导入字幕」，选择生成的 SRT 文件；
调整字幕位置、字体大小及颜色（推荐使用黑体+白边增强可读性）。

2. 时间轴微调

拖动字幕块对齐语音片段；
使用「分割」功能修正长句子分段；
调整淡入淡出效果避免突兀切换。

六、总结与扩展提议

1. 技术总结

FFmpeg：音视频处理的瑞士军刀，需掌握基础命令与环境配置；
Whisper：根据硬件条件选择模型，优先使用镜像站加速下载；
剪映：适合非专业用户的快速合成工具，进阶可研究 Aegisub 精细化调整。

2. 扩展优化

字幕翻译：结合 Whisper 的 --task translate 参数直接生成中文翻译；
批量处理：编写 Shell/Python 脚本自动化提取、识别、合成流程；
GPU 加速：配置 CUDA 环境提升 Whisper 推理速度（需 NVIDIA 显卡）。

3. 资源推荐

FFmpeg 官方文档：https://ffmpeg.org/documentation.html
Whisper GitHub 仓库：https://github.com/openai/whisper
剪映教程：https://www.capcut.com/support

通过本文，您可高效完成从英文视频到中文字幕的全流程处理，结合开源工具与AI技术，大幅降低创作门槛。