豆包音频生成模型1.0正式发布,该模型拥有两大核心技术:多模态参考生成与长时音色一致性。用户只需输入包含角色台词、情绪语气、背景音乐及环境氛围的提示词,即可直接生成完整音频。在长音频创作中,该模型能稳定保持角色声音特性。此外,它还具备0样本多模态音频创造能力,支持文本描述或参考音频输入,无需额外训练就能生成高质量目标音频,实现音色与风格的深度解耦及一声多角演绎,有效降低了专业音频制作的门槛。