glmtts-test / README_zh.md

Cocii

Update README_zh.md

7f6dfa8 verified 3 months ago

preview code

raw

history blame contribute delete

4.6 kB

metadata

language:
  - zh
  - en
tags:
  - llm
  - tts
  - zero-shot
  - voice-cloning
  - reinforcement-learning
  - flow-matching
license: mit
pipeline_tag: text-to-speech

GLM-TTS: 可控且富含情感的零样本语音合成模型

💻 GitHub 仓库 | 🤗 在线演示 (Demo) | 🛠️ Audio.Z.AI

模型介绍

GLM-TTS 是一个基于大语言模型（LLM）的高质量文本转语音（TTS）合成系统，支持零样本（Zero-shot）声音克隆和流式推理。该系统采用两阶段架构，结合了用于生成语音 Token 的 LLM 和用于波形合成的 Flow Matching 模型。

通过引入 多奖励强化学习（Multi-Reward Reinforcement Learning） 框架，GLM-TTS 显著提升了生成语音的表现力，相比传统 TTS 系统实现了更自然的情感控制。

核心特性

零样本声音克隆 (Zero-shot Voice Cloning)： 仅需 3-10 秒的提示音频即可克隆任意说话人的声音。
强化学习增强的情感控制 (RL-enhanced Emotion Control)： 利用多奖励强化学习框架（GRPO）优化韵律和情感表达。
高质量合成 (High-quality Synthesis)： 生成的语音质量媲美商业系统，且字符错误率（CER）更低。
音素级控制 (Phoneme-level Control)： 支持“混合音素 + 文本”输入，以实现精准的发音控制（例如多音字处理）。
流式推理 (Streaming Inference)： 支持适合交互式应用的实时音频生成。
双语支持 (Bilingual Support)： 针对中英文混合文本进行了专门优化。

系统架构

GLM-TTS 遵循两阶段设计：

第一阶段 (Stage 1 - LLM): 基于 Llama 的模型将输入文本转换为语音 Token 序列。
第二阶段 (Stage 2 - Flow Matching): Flow 模型将 Token 序列转换为高质量的梅尔频谱图 (Mel-spectrograms)，随后通过声码器 (Vocoder) 转换为波形。

强化学习对齐 (Reinforcement Learning Alignment)

为了解决情感表达平淡的问题，GLM-TTS 使用 群组相对策略优化 (GRPO) 算法，结合多种奖励函数（相似度、CER、情感、笑声）来对齐 LLM 的生成策略。

评估结果

在 seed-tts-eval 基准上进行的评估显示，GLM-TTS_RL 在保持高说话人相似度的同时，实现了最低的字符错误率 (CER)。

模型 (Model)	CER ↓	SIM ↑	是否开源 (Open-source)
Seed-TTS	1.12	79.6	🔒 否
CosyVoice2	1.38	75.7	👐 是
F5-TTS	1.53	76.0	👐 是
GLM-TTS (Base)	1.03	76.1	👐 是
GLM-TTS_RL (Ours)	0.89	76.4	👐 是

快速开始 (Quick Start)

安装 (Installation)

git clone [https://github.com/zai-org/GLM-TTS.git](https://github.com/zai-org/GLM-TTS.git)
cd GLM-TTS
pip install -r requirements.txt

命令行推理

python glmtts_inference.py \
    --data=example_zh \
    --exp_name=_test \
    --use_cache \
    # --phoneme # 如果想要使用phoneme能力，请加上这个参数

使用Shell脚本推理

bash glmtts_inference.sh

致谢 & 引用

我们感谢以下开源项目的支持：

CosyVoice - 提供前端处理框架和高质量声码器
Llama - 提供基础语言模型架构
Vocos - 提供高质量声码器
GRPO-Zero - 强化学习算法实现灵感

如果您在研究中使用了GLM-TTS，请引用：

@misc{glmtts2025,
  title={GLM-TTS: Controllable & Emotion-Expressive Zero-shot TTS with Multi-Reward Reinforcement Learning},
  author={CogAudio Group Members},
  year={2025},
  publisher={Zhipu AI Inc}
}