Google近日在非洲发布了名为WAXAL的大型语音数据集,覆盖阿乔利语、豪萨语、卢干达语、约鲁巴语等21种非洲语言,代表超过1亿使用者。该数据集由非洲本地学术和社区机构合作构建,包含约1250小时的自动语音识别(ASR)数据和180小时的高质量文本转语音(TTS)数据,所有权归非洲机构所有。此举旨在解决非洲语言在主流AI系统中资源匮乏的问题,推动语音技术普惠化与数字语言保护。数据集已通过CC-BY-4.0许可协议开源,供全球研究者使用。