当前位置：首页 > 资讯 > 系统环境

AI字幕全攻略：为视频添加中文字幕(FFmpeg+Whisper+剪映实战)

时间：2025-10-20 23:36 作者：来源：阅读：0
扫一扫，手机访问

摘要：最近有看到一个英文视频，但是里面没有字幕，对于英文不太好的同学可能比较费劲，以前知道一些视频或者大片会有专门的字幕组之类，而且还形成了专业的团队。当然目前AI技术发展的如火如荼，我也听说过一些视频处理工具之类的，所以就想试下使用AI工具自动识别来给视频添加字幕的想法，当然实则这些技术早就有了，也已经很成熟了，对于一些专门搬运视频的老铁也已经是家常便饭了，而且

最近有看到一个英文视频，但是里面没有字幕，对于英文不太好的同学可能比较费劲，以前知道一些视频或者大片会有专门的字幕组之类，而且还形成了专业的团队。当然目前AI技术发展的如火如荼，我也听说过一些视频处理工具之类的，所以就想试下使用AI工具自动识别来给视频添加字幕的想法，当然实则这些技术早就有了，也已经很成熟了，对于一些专门搬运视频的老铁也已经是家常便饭了，而且还有一些工具可以一键实现这些操作。最近有时间而且也是有点好奇，所以才总结这篇文章，扯远了，下面进入正题。

一、整体流程概述

为英文视频添加中文字幕的核心流程可分为三步：

提取视频音频：使用 FFmpeg 从视频中分离音频文件（如 MP3 或 WAV）；
语音转文字生成字幕：通过 Whisper 将音频识别为文本，并导出 SRT 格式字幕文件；
字幕合成与调整：利用剪映等工具将字幕与视频同步，并调整时间轴与样式[^综合技术]。

以下将分步骤详解各工具的使用方法及技术要点。

二、FFmpeg：音视频处理的核心工具

1. FFmpeg 简介

FFmpeg 是开源的多媒体处理框架，支持视频/音频的编解码、格式转换、裁剪合并等操作。其核心组件包括：

ffmpeg：主程序，用于音视频处理；
ffprobe：分析文件格式与元数据；
ffplay：简易播放器。

2. 安装与验证

Windows 系统：

官网下载预编译包（推荐选择 release-full 版本）；
解压后添加 bin 目录至系统环境变量 PATH；
命令行输入 ffmpeg -version 验证安装成功。

Linux/macOS 系统：

# Ubuntu/Debiansudo apt update && sudo apt install ffmpeg -y# CentOSsudo yum install epel-release && sudo yum install ffmpeg -y# macOS（需 Homebrew）brew install ffmpeg

推荐使用linux 系统进行，本次实现是在Ubuntu 24 系统下进行，4G内存，2核CPU，配置很低，没有GPU，所以也比较费时。

3. 提取视频音频

使用以下命令从视频中提取音频：

ffmpeg -i videoplayback.mp4 -ar 16000 -ac 1 -b:a 160k audio.mp3

-ar 16000：强制16kHz采样率（适配Whisper默认输入）；
-ac 1：单声道（减少冗余数据）；
-b:a 160k：码率控制

压缩格式的实践提议

我第一次实验时，mp4 文件格式的视频原文件大小有35M，使用ffmpeg 提取出的无损格式的音频wav 格式确超过了100M，应该是原始视频有采用高压缩方案，这样导致后面在转SRT文件的时候时间比较长，当然我是在Ubuntu 虚拟机上实现的，4G内存，2核CPU，配置很拉胯，后来使用上面的命令使用mp3 压缩格式，码率在160k时准确率还是可以保障的。

三、Whisper：高精度语音识别引擎

1. Whisper 简介

由 OpenAI 开源的语音识别模型，支持 99 种语言的转录与翻译，具备以下特性：

多任务处理：支持语音活动检测、语种识别、时间戳对齐；
多模型选择：从轻量级 tiny 到高精度 large，覆盖不同场景需求。

2. 模型选择与性能对比

模型名称	参数量	显存占用	适用场景
tiny	39M	<1GB	快速测试，低资源设备
base	74M	1GB	英语优先，平衡速度与精度
small	244M	2GB	多语言支持，中等精度
medium	769M	5GB	高精度转录，需 GPU 加速
large	1.5B	10GB+	专业级转录，支持翻译任务

提议：

英语视频优先使用 base.en 或 small.en 模型，速度更快；
中文或其他语言推荐 small 或 medium。

3. 安装与使用

步骤 1：安装依赖

pip install -U openai-whisper

步骤 2：安装 FFmpeg（若未完成）
（参考上文 FFmpeg 安装步骤）

步骤 3：生成 SRT 字幕文件

whisper input_audio.mp3 --model small --language en --output_format srt

--language en：指定音频语言为英语；
--output_format srt：导出 SRT 格式字幕。

第一次使用时会自动下载模型，后面再次使用就不需要下载了，所以第一次会比较慢。

输出示例：

1
00:00:00,000 --> 00:00:04,000Welcome to this tutorial on adding subtitles.

四、Hugging Face 模型加速下载

1. 国内镜像站使用

Hugging Face 官方源在国内下载较慢，可通过镜像站加速：

# 设置镜像环境变量（Linux/macOS）export HF_ENDPOINT=https://hf-mirror.com# Windows PowerShell$env:HF_ENDPOINT = "https://hf-mirror.com"

2. 命令行工具下载

使用 huggingface-cli 实现断点续传与多线程下载：

huggingface-cli download --resume-download openai/whisper-medium --local-dir ./whisper-model

--resume-download：支持断点续传；
--local-dir：指定本地存储路径。

3. Python 脚本下载

from huggingface_hub import snapshot_download
snapshot_download(
    repo_id="openai/whisper-medium",
    local_dir="./whisper-model",
    resume_download=True)