Fish Speech(支持语音克隆的文本转语音工具)简介
Fish Speech是一个开源的支持语音克隆的文本转语音工具,号称是最先进文本转语音(TTS)系统,具有零样本和少样本语音克隆能力。只需提供10-30秒的语音样本,就能生成高质量的语音合成结果。
系统最显著的特点是其多语言和跨语言支持能力。用户可以直接输入多语言文本而无需考虑语言类型,目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语等多种语言。与传统TTS系统不同,Fish Speech不依赖音素,具有强大的泛化能力,可以处理任何语言的文本。
在性能方面,Fish Speech在处理5分钟英语文本时,字符错误率和词错误率仅为2%左右。使用fish-tech加速技术,在RTX 4060笔记本上可实现1:5的实时率,在RTX 4090上可达到1:15的实时率。
Fish Speech(支持语音克隆的文本转语音工具)官网及开源地址
- 官网:https://speech.fish.audio/
- 开源地址:https://github.com/fishaudio/fish-speech?tab=readme-ov-file
- 最新版本:https://github.com/fishaudio/fish-speech/releases
该项目提供了多种使用方式:基于Gradio的网页界面支持主流浏览器;基于PyQt6的图形界面支持Linux、Windows和macOS系统;同时还支持部署推理服务器。最新版本还集成了Fish Agent功能,实现了端到端的语音交互,包含情感表达和音色控制功能。