语音合成 (TTS)
安装所需的依赖并在 conf.yaml 进行配置后后,通过修改 conf.yaml 中的 TTS_MODEL 选项来启用相应的语音合成引擎。
sherpa-onnx(本地 & 推荐)
自
v0.5.0-alpha.1版本起可用(PR#50)
sherpa-onnx 是一个强大的推理引擎,支持多种 TTS 模型(包括 MeloTTS)。项目已内置支持,默认使用 CPU 推理。
配置步骤:
- 从 sherpa-onnx TTS models 下载所需模型
- 参考 config_alts中的配置示例修改conf.yaml
提示
如需使用 GPU 推理(仅支持 CUDA),请参考 CUDA推理。
pyttsx3(轻量快速)
简单易用的本地 TTS 引擎,使用系统默认语音合成器。使用 py3-tts 而不是更著名的 pyttsx3,因为 pyttsx3 似乎无人维护,且在测试电脑上无法运行。
配置步骤:
- 执行 uv pip install py3-tts安装
- 在 conf.yaml中设置tts_model: pyttsx3_tts
- 
- 使用命令 uv pip install py3-tts安装。
 
- 使用命令 
- 
- 这个 TTS 引擎没有任何配置项,直接在 conf.yaml中设置tts_model: pyttsx3_tts即可。
 
- 这个 TTS 引擎没有任何配置项,直接在 
信息
这个包将使用您系统上的默认 TTS 引擎:
- Windows 使用 sapi5 引擎
- macOS 使用 nsss 引擎
- 其他平台使用 espeak 引擎
MeloTTS(本地部署)
重要提示
- 强烈推荐通过 sherpa-onnx 使用 MeloTTS,而非安装较为复杂的官方版本
- MeloTTS 与 Coqui-TTS 存在依赖冲突,请勿同时安装
- MeloTTS 官方版本在 macOS 上可能出现 mps 相关错误(欢迎提供解决方案)
安装步骤
从项目
v1.0.0版本开始,我们采用uv管理依赖,这大大简化了 MeloTTS 的安装流程。
- 安装 MeloTTS 和必要组件:
# 安装 MeloTTS
uv add git+https://github.com/myshell-ai/MeloTTS.git
# 下载 unidic
python -m unidic download
- 下载额外依赖:
# 进入 Python 解释器
python
# 下载必要的 NLTK 数据
>>> import nltk
>>> nltk.download('averaged_perceptron_tagger_eng')
# 完成后按 Ctrl+D 退出解释器
- 配置启用:
- 编辑项目的 conf.yaml文件
- 将 tts_model设置为melo_tts
补充说明
- 官方文档:MeloTTS Installation Guide
- 如遇到 mecab-python相关问题,可尝试使用此分支(注:截至 2024/7/16 尚未合并至主分支)
Coqui-TTS(本地部署)
重要提示
- MeloTTS 与 Coqui-TTS 存在依赖冲突,请勿同时安装
Coqui-TTS 是一个开源语音合成工具包,支持多种模型和语言。推理速度取决于所选模型的大小和复杂度。
安装步骤
# 安装 Coqui-TTS 及其语言支持
uv add transformers "coqui-tts[languages]"
模型配置
- 查看可用模型:
uv run tts --list_models
- 在 conf.yaml中配置:
 coqui_tts:
      # 要使用的 TTS 模型的名称。如果为空,将使用默认模型
      # 执行 "tts --list_models" 以列出 coqui-tts 支持的模型
      # 一些示例:
      # - "tts_models/en/ljspeech/tacotron2-DDC"(单说话人)
      # - "tts_models/zh-CN/baker/tacotron2-DDC-GST"(中文单说话人)
      # - "tts_models/multilingual/multi-dataset/your_tts"(多说话人)
      # - "tts_models/multilingual/multi-dataset/xtts_v2"(多说话人)
      model_name: "tts_models/en/ljspeech/tacotron2-DDC" # 模型名称
      speaker_wav: "" # 参考音频文件路径
      language: "en" # 语言
      device: "" # 设备
- 
单语言模型: - 默认配置为英文单语言模型
- 如需中文支持,请更换为中文模型 (如 tts_models/zh-CN/baker/tacotron2-DDC-GST)
 
- 
多语言模型: - speaker_wav:参考音频文件路径- 支持相对路径(如 ./voices/reference.wav)
- Windows 使用绝对路径时注意将 \改为\\
- 确保参考音频文件存在于指定位置
 
- 支持相对路径(如 
- language:设置优先使用的语言- 中文设置为 "zh"
- 英文设置为 "en"
- 此参数与 speaker_wav对应
 
- 中文设置为