Fish Speech – 支持语音克隆的文本转语音工具

AJun更新于 2024-12-20 08:12:13首发于 2024-12-20 08:12:11电脑知识182

Fish Speech（支持语音克隆的文本转语音工具）简介

Fish Speech是一个开源的支持语音克隆的文本转语音工具，号称是最先进文本转语音（TTS）系统，具有零样本和少样本语音克隆能力。只需提供10-30秒的语音样本，就能生成高质量的语音合成结果。

系统最显著的特点是其多语言和跨语言支持能力。用户可以直接输入多语言文本而无需考虑语言类型，目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语等多种语言。与传统TTS系统不同，Fish Speech不依赖音素，具有强大的泛化能力，可以处理任何语言的文本。

在性能方面，Fish Speech在处理5分钟英语文本时，字符错误率和词错误率仅为2%左右。使用fish-tech加速技术，在RTX 4060笔记本上可实现1:5的实时率，在RTX 4090上可达到1:15的实时率。

该项目提供了多种使用方式：基于Gradio的网页界面支持主流浏览器；基于PyQt6的图形界面支持Linux、Windows和macOS系统；同时还支持部署推理服务器。最新版本还集成了Fish Agent功能，实现了端到端的语音交互，包含情感表达和音色控制功能。