哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书 - AI - JQman

Just Quick Just Quality

热门话题

白天

搜索

/

/

资讯

/

/

哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

2025-06-16 / 阅读约2分钟

来源：IT之家

哈佛大学法学院图书馆开源首个AI训练数据集“Institutional Books 1.0”，涵盖98.3万本图书、2420亿Token，支持245种语言。40%为英语，60%为其他语言，书籍主要来自19-20世纪。未来还将加入数百万份历史报纸数字化内容。#AI训练# #开源数据#

IT之家 6 月 16 日消息，在微软与 OpenAI 的支持下，哈佛大学法学院图书馆于上周正式开源其首个 AI 训练用开放数据集“Institutional Books 1.0”。该数据集据称收录了哈佛大学馆藏中 98.3 万本图书，涵盖 245 种语言，共包含 2420 亿个 Token，IT之家附项目地址（https://huggingface.co/datasets/institutional/institutional-books-1.0）。

据介绍，相应数据集收录的书籍有 40% 为英语，书籍主要出版年代集中于 19 与 20 世纪，共计被划分为 20 项主题，除此之外，相应数据集还提供了每本书的完整元数据，涉及“作者、出版年份、语言、原始来源”等信息。

哈佛大学法学院图书馆表示，未来研究人员还将持续扩充数据内容，目前相应项目组成员已与波士顿公共图书馆展开合作，将把“数百万份”历史报纸以数字化形式添加至上述数据集中。

后续，哈佛大学法学院图书馆还计划开发一系列 AI 工具，以提升馆藏资料整理和开放的效率，推动“负责任的数据使用规范”。

上一篇：iPhone AI造假？苹果高管最新深度专访，首次回应Siri延迟内幕（完整实录）

下一篇：决裂？OpenAI考虑“核选项”：指控微软反竞争

相关新闻

关键词：OpenAI

1 天前

鸿蒙智行尊界 S800 轿车购置税补贴方案发布，至高 15000 元

2 天前

这就是苹果放弃的低价版iPad？14年前机型曝光

2 天前

Sora 2做“AI版抖音”，Agent做“AI版亚马逊”，OpenAI力推“AI应用”

2 天前

DeepSeek新模型开源，新架构亮了，国产AI芯片集体狂欢

2 天前

AI 时代，阿里云想当“安卓” ，那谁是“苹果”？

2 天前

从造车迈向“造人”，特斯拉下一个十年大计出炉

2 天前

"2025工业具身智能TPT+UCS落地应用成果展示大会"于湖北宜昌圆满举行

2 天前

苹果完成创举：iPhone 17 Pro / Max 首次用于 MLB 职业棒球联赛直播

2 天前

安徽第二城，又一个“起飞”机会已至？

2 天前

刚刚，Claude Sonnet 4.5重磅发布，编程新王降临

上一篇：iPhone AI造假？苹果高管最新深度专访，首次回应Siri延迟内幕（完整实录）

下一篇：决裂？OpenAI考虑“核选项”：指控微软反竞争

Just Quick Just Quality

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们