AI训练数据的成本极为高昂,通常只有财力雄厚的科技巨头才能负担。正因如此,哈佛大学计划发布一个涵盖约100万册公版书籍的数据集,内容横跨多种类型、语言及作者,包括狄更斯、但丁和莎士比亚等因年代久远而已不受版权保护的经典作品。
这一数据集目前尚未正式发布,具体发布时间与方式也尚未明确。但可以确认的是,该数据集中的书籍来源于谷歌长期推进的图书数字化项目——谷歌图书(Google Books),因此谷歌也将参与将这一"珍贵资源库"向各界广泛开放的工作。
哈佛大学早在今年3月便率先透露了"机构数据倡议"(Institutional Data Initiative,简称IDI)的相关计划,表示将打造一个"为AI提供合法数据的可信渠道"。此后该项目鲜有消息,直至今日正式宣布启动,并确认微软与OpenAI已为IDI提供资金支持。
IDI执行主任格雷格·莱珀特(Greg Leppert)表示,这一数据集的设计初衷是通过向所有人开放如此庞大的资源——无论是研究机构还是AI初创公司——来"打造公平竞争的环境",让更多主体得以训练自己的大语言模型。
Q&A
Q1:哈佛机构数据倡议(IDI)发布的数据集包含哪些内容?
A:该数据集涵盖约100万册公版书籍,横跨多种文学类型、语言及作者,包括狄更斯、但丁、莎士比亚等经典作家的作品。这些书籍因年代久远已不受版权法保护,书目来源于谷歌长期推进的谷歌图书数字化项目。
Q2:哈佛IDI数据集目前可以使用了吗?
A:目前该数据集尚未正式对外发布,具体的发布时间与获取方式也尚不明确。哈佛大学与谷歌将共同参与后续的发布工作,有意向的研究机构和AI企业可持续关注官方动态。
Q3:哈佛IDI数据集的发布对AI初创公司有什么意义?
A:AI训练数据成本极高,通常只有大型科技公司才能承担。IDI数据集的发布旨在"打造公平竞争的环境",让资金有限的研究机构和AI初创公司也能获取大规模高质量的训练数据,用于训练自己的大语言模型,从而降低行业门槛。
好文章,需要你的鼓励
亚马逊现以949美元的价格销售13英寸M5 MacBook Air,相比苹果官方售价1099美元节省150美元。这是2026款M5 MacBook Air入门机型,也是目前可追踪到的最低价之一。与此同时,15英寸入门款已降至历史最低,优惠幅度达199美元。预计在阵亡将士纪念日前后,13英寸多色款将进一步降价,是升级至苹果最新M5芯片机型的绝佳时机。
清华大学等机构提出首个实时双工多模态交互评测基准Omni-DuplexEval,含660个视频、9项任务,揭示当前最佳AI模型综合得分仅39.6分,远低于人类81.8分。
阿里云在新加坡举办首届国际Qwen大会,发布旗舰模型Qwen 3.7-Max,该模型拥有超过1万亿参数及100万token上下文窗口,支持自主运行35小时。大会同步推出AI原生平台Qwen Cloud及JVS Agent Suite等产品。阿里云还联合新加坡职工总会及ST Telemedia,启动面向逾1000家中小企业的AI技能培训计划,探索"AI服务于劳动者"的发展路径。
上交大与腾讯ARCLab提出SGT方法,通过将图像分割作为生成代理任务,有效打通统一多模态模型中理解与生成两种能力的表示空间,在多个主流评测上取得一致性提升。