
工具名称 | 开源状态 | 主要功能 | 核心技术/模型 | 语言支持 | 适用场景 |
TTS Maker | 免费商用 | 多语言支持,方言生成(如东北话、粤语),音色丰富 | 未明确 | 中/英/日/法/韩等50+,含方言 | 短视频配音、多语言有声内容 |
微软Azure TTS | 闭源 | 高自然度合成,情感控制,支持SSML | 神经网络语音、自定义神经语音 | 140+语言,400+音色 | 企业级应用、有声书、虚拟助手 |
PaddleSpeech | 开源 | 中文流式合成,低延迟 | FastSpeech2 + HiFiGAN | 中文优化 | 实时语音播报、智能客服 |
VoiceVox | 开源 | 日语语音合成,二次元风格音色 | VOICEVOX OSS | 日语 | 虚拟主播、二次元内容创作 |
TensorFlowTTS | 开源 | 多模型支持(Tacotron 2、FastSpeech2等) | Tacotron2/FastSpeech2 + MelGAN | 多语言 | 学术研究、模型定制开发 |
ChatTTS | 开源 | 中英文对话优化,支持情感特征(笑声、停顿) | 预训练模型(4万小时) | 中/英 | 对话交互、有声内容生成 |
Seed-TTS | 未开源 | 语音内容编辑,说话速度控制 | 字节跳动自研模型 | 中文为主 | 语音编辑、有声书后期 |
Fish Speech | 开源 | 多语言混合生成,支持VITS2/Bert-VITS2等模型 | VITS2/Bert-VITS2 | 中/英/日 | 多语言播客、影视配音 |
GPT-SoVITS | 开源 | 1分钟语音克隆,方言支持 | SoVITS + GPT | 中文(含方言) | 虚拟人声、个性化语音克隆 |
OpenVoice | 开源 | 声音克隆,情感/口音/语调精细控制 | 多风格控制模型 | 中/英/日/韩/法/西 | 广告配音、多语言虚拟助手 |
Bark | 开源 | 生成语音+音效(音乐/背景音),多语言混合 | Transformer架构 | 100+语言 | 创意音频、游戏音效 |
Coqui TTS | 开源 | 支持1100+语言预训练模型 | XTTS | 超多语言覆盖 | 低资源语言合成、全球化应用 |
Real-Time-Voice-Cloning | 开源 | GUI交互式语音克隆 | SV2TTS | 多语言 | 非技术用户语音克隆 |
F5-TTS | 开源 | 零样本声音克隆,情感控制 | 扩散变换器(DiT) | 多语言 | 个性化语音合成、情感化交互 |
Edge-TTS | 开源 | 多语言语音生成(微软接口封装) | 基于微软Edge浏览器TTS接口 | 40+语言,300+音色 | 轻量级应用、多语言基础合成 |

TTS Maker
非开源服务,官方地址:https://ttsmaker.com/zh-cn
微软Azure
非开源服务,官方地址:https://azure.microsoft.com/en-us/products/cognitive-services/text-to-speech/
PaddleSpeech
开源地址:https://github.com/PaddlePaddle/PaddleSpeech
VoiceVox
开源地址:https://github.com/VOICEVOX/voicevox
TensorFlowTTS
开源地址:https://github.com/TensorSpeech/TensorFlowTTS
TTSKit
开源地址:https://github.com/kuangdd/ttskit
OpenTTS
开源地址:https://github.com/synesthesiam/opentts
eSpeak NG
开源地址:https://github.com/espeak-ng/espeak-ng
F5-TTS
开源地址:https://github.com/SWivid/F5-TTS
HuggingFace空间:https://huggingface.co/SWivid/F5-TTS
Edge-TTS
开源地址:https://github.com/rany2/edge-tts
ChatTTS
开源地址:https://github.com/2noise/ChatTTS
ChatTTS-ui
开源地址:https://github.com/jianchang512/ChatTTS-ui
Seed-TTS
技术报告地址:https://bytedancespeech.github.io/seedtts_tech_report/
论文地址:https://arxiv.org/pdf/2406.02430
评估工具地址:https://github.com/BytedanceSpeech/seed-tts-eval/
注意:核心模型代码可能未完全开源
Fish Speech
开源地址:https://github.com/fishaudio/fish-speech
官方地址:https://fish.audio/zh-CN/
GPT-SoVITS
开源地址:https://github.com/RVC-Boss/GPTSoVITS
OpenVoice
开源地址:https://github.com/myshell-ai/OpenVoice
论文地址:https://arxiv.org/pdf/2312.01479.pdf
Parler-TTS
开源地址:https://github.com/huggingface/parler-tts
FUNAudioLLM-CosyVoice
开源地址:https://github.com/FunAudioLLM/CosyVoice
VoiceCraft
开源地址:https://github.com/jasonppy/VoiceCraft
EmotiVoice
开源地址:https://github.com/netease-youdao/EmotiVoice
MetaVoice-1B
开源地址:https://github.com/metavoiceio/metavoice-src
Voice Engine
非开源服务,相关信息:https://ai-bot.cn/openai-voice-engine/
注意:OpenAI并未发布名为Voice Engine的官方服务或模型,可能是第三方实现或误解。
Bark
开源地址:https://github.com/suno-ai/bark
MaskGCT
开源地址(镜像):https://hf-mirror.com/amphion/MaskGCT
注意:原始仓库可能位于其他平台,但此处提供了HuggingFace镜像。
Coqui TTS
开源地址:https://github.com/coqui-ai/tts
HuggingFace空间:https://huggingface.co/spaces/coqui/xtts
文档:https://tts.readthedocs.io/en/dev/models/xtts.html
So-VITS-SVC
开源地址:https://github.com/svc-develop-team/so-vits-svc
Mocking Bird
开源地址:https://github.com/babysor/MockingBird
Bilibili视频(介绍):https://www.bilibili.com/video/BV17Q4y1B7mY
Real-Time-Voice-Cloning
开源地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning
voice-pro
开源地址(组织页面,包含多个项目):https://github.com/abus-aikorea