6 GB 显存笔记本也能一口气生成 1 分钟 30 fps 高清视频,训练 batch 还能拉满——Stable Diffusion 时代的一幕,正在视频生成领域重演。

FramePack 是斯坦福 Lvmin Zhang 与 Maneesh Agrawala 联合开源的“下一帧预测”架构,通过固定长度时序上下文压缩,把传统视频扩散模型“随帧数线性膨胀”的显存占用直接压成常数级。
通俗地说:无论你想生成 5 秒还是 120 秒,显存都只吃 6 GB,训练 batch 大小却能跟图像扩散模型一样任性。
以往开源视频模型(如 SVD、AnimateDiff)想在本地跑长视频,要么显存秒天秒地,要么帧数一多就 OOM;训练更是 8×A100 起步。
“没有 24 GB 显存就告别 AI 视频”——这句潜规则把 90 % 的创作者挡在门外。
特性数据备注 最低显存6 GB笔记本 RTX 3060 / 4060 即可最大帧数1800+(60 s@30 fps)130 亿参数模型实测推理速度1.5 s / 帧(RTX 4090 优化后)支持 TeaCache、量化加速训练 batch可比肩 Stable Diffusion显存恒定,帧数无关抗漂移双向导航 + 反漂移采样长视频不“跑偏”GUI 一键包Win / Linux 双平台上传图片→写提示→直接出片
# Python≥3.10
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
git clone https://github.com/lllyasviel/FramePack.git
cd FramePack
pip install -r requirements.txt
python demo_gradio.py支持 PyTorch / xFormers / flash-attn / sage-attention 多后端,可按需加速。