当前位置: 科技师 » 电脑知识 » 正文

Fish Speech – 支持语音克隆的文本转语音工具

Fish Speech(支持语音克隆的文本转语音工具)简介

Fish Speech是一个开源的支持语音克隆的文本转语音工具,号称是最先进文本转语音(TTS)系统,具有零样本和少样本语音克隆能力。只需提供10-30秒的语音样本,就能生成高质量的语音合成结果。

系统最显著的特点是其多语言和跨语言支持能力。用户可以直接输入多语言文本而无需考虑语言类型,目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语等多种语言。与传统TTS系统不同,Fish Speech不依赖音素,具有强大的泛化能力,可以处理任何语言的文本。

Fish Speech - 支持语音克隆的文本语音互转工具

在性能方面,Fish Speech在处理5分钟英语文本时,字符错误率和词错误率仅为2%左右。使用fish-tech加速技术,在RTX 4060笔记本上可实现1:5的实时率,在RTX 4090上可达到1:15的实时率。

Fish Speech(支持语音克隆的文本转语音工具)官网及开源地址

该项目提供了多种使用方式:基于Gradio的网页界面支持主流浏览器;基于PyQt6的图形界面支持Linux、Windows和macOS系统;同时还支持部署推理服务器。最新版本还集成了Fish Agent功能,实现了端到端的语音交互,包含情感表达和音色控制功能。

未经允许不得转载:科技师 » Fish Speech – 支持语音克隆的文本转语音工具

相关文章