Meta 于周二宣布推出 Seamless M4T AI 模型,展示其通用语言翻译方向的成果。此模型能快速、有效地理解多达 100 种语言的语音或文字,并生成翻译,甚至从文字生成语音。
近 100 种语言的语音识别
- 近 100 种输入和输出语言的语音转文字翻译
- 支持近 100 种输入语言和 36 种(包括英文)输出语言的语音转语音翻译
- 近 100 种语言的文字转文字翻译
- 支持近 100 种输入语言和 35 种(包括英文)输出语言的文字转语音翻译
近 100 种不同语言进行语音识别
Meta 于网志文章中描述其新的翻译系统为「第一个集多模态和多语言 AI 翻译模型于一身」的系统,能够为近 100 种不同语言进行语音识别和语音至文字的翻译。Seamless M4T 亦能理解用户在句子中间更换语言,这对于翻译那些在讲话时混合使用不同语言部分的人来说,可能有所帮助。与过去的翻译模型不同,SeamlessM4T 使用一个单一系统,Meta 相信这最终将减少错误和延迟,提高质量。
Creative Commons 授权
Meta 将 Seamless M4T 以 Creative Commons 授权推出,以便其他翻译人员和 AI 研究人员可以研发。该公司还将发布 SeamlessAlign 的元数据,其中包含超过 270,000 小时的挖掘语音和文字。Meta 声称这是此类数据集中最大的一个。
整合 WhatsApp/Messenger
Meta CEO 朱克伯格表示,未来公司会将这些 AI 翻译技术整合在旗下的 Facebook、Instagram、WhatsApp、Messenger 及 Threads 产品之中。外界估计,WhatsApp 及 Messenger 将可加入「语音讯息」变成「文字」功能。