Meta的基础人工智能研究(FAIR)团队近日开源了自动语音识别系统Omnilingual ASR,该系统能够转录超过1600种口语语言。它基于PyTorch的fairseq2框架构建,并提供了不同参数的版本。此举旨在弥合AI工具在语言覆盖上的差距,推动实现“通用转录系统”的目标,其中500种语言此前未被任何人工智能系统所覆盖。测试结果显示,该系统对78%的语言实现了低于10个字符的错误率,其中“资源丰富”的语言准确率标准覆盖达95%,“低资源”语言也有36%达到此标准。Omnilingual ASR的“自带语言”选项允许系统从少量样本中学习新语言,理论上有望将覆盖范围扩展到超过5400种语言。此外,Meta还同步发布了全语言自动语音识别语料库,以帮助开发者调整模型,满足本地化需求。
