这看起来像是一张来自2000多年前的照片,如果那时有相机的话。画面中,三名面容沧桑的男子围坐在军营的临时桌子旁,正在玩一个看似简单的石头或骰子游戏。他们身着罗马风格的服装——两人在束腰外衣上穿着皮革或金属盔甲,一人披着红色羊毛斗篷,这是罗马共和国和早期帝国时期士兵和军官常穿的服装。
这幅生动的古代场景图像来自"重新体验历史"(Re-Experiencing History),这是一个基于学术资料生成古罗马和希腊景象的新型AI图像生成器。
该工具的描述写道:"这个项目从根本上改变了我们感知和传达历史的方式。我们提供的不仅仅是书籍或电影中的重建场景,而是一个让每个人都能自己可视化历史场景的工具。"
瑞士苏黎世大学古代史教授Felix K. Maier与该校计算语言学家、计算机科学家Phillip Strobel合作创建了这个交互式平台。他们将其视为教育工作者、研究人员、纪录片制作者和博物馆的宝贵工具——它既不产生完美的重建,也不声称绝对真实,而是提供视觉假设,鼓励人们更深入地参与历史。
这对合作伙伴在对我问题的联合书面回应中说:"我们无法重现罗马的凯旋式或希腊的节庆,但通过视觉建模,我们激发了证据与想象之间的对话。这个过程让我们意识到空白、不确定性和偏见,而这种意识本身就是一种知识形式。"
图像生成器如何训练
为了训练他们的系统,团队向现有的AI图像生成器输入了精心策划的近300张图像和说明文字,包括学术书籍中关于罗马服装、武器和建筑的插图,以及关于罗马凯旋游行的标注材料。
这对合作者说:"通过让这些材料在模型中运行,我们帮助它们捕捉到通常会遗漏的细节,避免回到通用的'古代风貌'陈词滥调。"
然后,他们让系统通过从约70篇关于罗马文化的研究文章和书籍组成的精选数据库中检索历史特定信息来丰富每个提示。
Maier和Strobel说:"精细化的提示不是宽泛或模糊的指令,而是详细说明服装、仪式行为或场景的具体细节,这使生成的图像更加具体和历史上合理。"
展示图像生成器能力的样本图像包括公元410年西哥特人洗劫罗马的场景,以及两名头戴花环的年轻女子前往宗教节庆的画面。使用OpenAI的Dall-E 3和微调版本的Flux Dev创建的精彩视频合集循环展示了阳光明媚的户外市场、整齐列队的装甲士兵、街头贫困市民以及统治者从战车上向公众致意的场景。
对于有丰富考古证据的事件,如凯旋游行,输出结果可以"令人印象深刻地接近"文本和考古学已知的情况。
他们说:"游行车辆、月桂冠和广场拥挤的建筑都以可识别的合理性出现。"但当他们试图生成可用文档较少的场景图像时——比如古罗马的牧神节(Lupercalia),"模型不可避免地会陷入推测。"
"重新体验历史"目前仅对拥有苏黎世大学邮箱地址的人开放。不过,其他人仍可以注册,并会在工具向公众开放时收到通知。
古罗马的智能手机
Maier和Strobel承认人们对AI偏见、误用和图像失真担忧的合理性。一些"重新体验历史"的图像具有明显的AI光泽感,还有常见的故障,如四肢在这里那里时隐时现。平台实验产生了一些特别滑稽的结果:罗马凯旋游行中的观众手持智能手机,西塞罗在元老院发表演讲时,看起来像是在对着麦克风说话。
这些学者说:"该技术在描绘被年龄、劳动或疾病标记的人时也有困难——它往往默认为理想化的、完美的形象。"
创作者还面临了反映人们对生成式AI更大恐惧的批评——像他们这样的系统可能会削弱人类想象力。他们相信情况恰恰相反,围绕AI的辩论不应该只关注风险,还应该关注可能性。
他们说:"通过提供努力追求合理性的可视化,我们的平台不是取代想象力,而是激发想象力。"
Q&A
Q1:重新体验历史平台是什么?它能做什么?
A:重新体验历史是由瑞士苏黎世大学开发的AI图像生成器,专门基于学术资料生成古罗马和希腊的历史场景。它能帮助教育工作者、研究人员、纪录片制作者和博物馆可视化历史场景,提供视觉假设来鼓励更深入的历史参与。
Q2:这个AI系统是如何训练的?
A:团队向AI图像生成器输入了近300张精心策划的图像和说明文字,包括学术书籍中的罗马服装、武器、建筑插图等。系统还从约70篇罗马文化研究文章和书籍中检索历史信息,通过具体细节而非模糊指令来生成更准确的历史图像。
Q3:这个平台目前有什么局限性?
A:平台生成的图像有时会出现AI特有的光泽感和技术故障,比如四肢时隐时现。更有趣的是,它有时会产生时代错误,如古罗马观众手持智能手机、西塞罗对着麦克风演讲等。技术在描绘年老、劳累或患病的人时也有困难,往往默认为理想化形象。
好文章,需要你的鼓励
PDF协会在欧洲会议上宣布,将在PDF规范中添加对JPEG XL图像格式的支持。尽管Chromium团队此前将该格式标记为过时,但此次纳入可能为JXL带来主流应用机会。PDF协会CTO表示,选择JPEG XL作为支持HDR内容的首选解决方案。该格式具备广色域、超高分辨率和多通道支持等优势,但目前仍缺乏广泛的浏览器支持。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
Ironclad OS项目正在开发一个新的类Unix操作系统内核,面向小型嵌入式系统,计划支持实时功能。该项目的独特之处在于采用Ada编程语言及其可形式化验证的SPARK子集进行开发,而非常见的C、C++或Rust语言。项目还包含运行在Ironclad内核上的完整操作系统Gloire,使用GNU工具构建以提供传统Unix兼容性。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。