哈佛大学开源 AI 训练数据集 Institutional Books 1.0
2 天前

哈佛大学近日在HuggingFace平台上开源了名为Institutional Books 1.0的AI训练数据集,包含98.3万本公共领域图书,涵盖245种语言,主要由哈佛大学图书馆参与谷歌图书项目的书籍数字化而成,并由机构数据倡议优化。数据集的使用受相关条款约束。