AI初创公司Kyutai推出Pocket TTS模型,仅1亿参数,支持语音克隆。用户提供5秒音频样本,即可复现目标声音的音色、情感等。该模型可在普通笔记本CPU上实时运行,采用连续隐变量架构,结合Lagrangian自蒸馏等技术,在Word Error Rate和音频质量上优于多个大参数竞品,且是唯一能在CPU上实现超实时生成的高质量TTS系统。Pocket TTS已开源,采用MIT许可证,训练数据全部来自公开英文语料,总计88000小时。