Fish Audio发布S2-Pro模型,推动高保真实时语音合成新标准
5 小时前

据MarketChpost报道,Fish Audio正式推出旗舰级文本到语音(TTS)模型S2-Pro,采用创新的双自回归架构,支持44.1kHz高保真音频输出和零样本语音克隆,仅需10至30秒参考音频即可复现说话人身份与情感状态,并在NVIDIA H200硬件上实现约100毫秒的首音频延迟,为实时交互式AI应用树立新标杆。