这看起来像是一张来自2000多年前的照片,如果那时有相机的话。画面中,三名面容沧桑的男子围坐在军营的临时桌子旁,正在玩一个看似简单的石头或骰子游戏。他们身着罗马风格的服装——两人在束腰外衣上穿着皮革或金属盔甲,一人披着红色羊毛斗篷,这是罗马共和国和早期帝国时期士兵和军官常穿的服装。
这幅生动的古代场景图像来自"重新体验历史"(Re-Experiencing History),这是一个基于学术资料生成古罗马和希腊景象的新型AI图像生成器。
该工具的描述写道:"这个项目从根本上改变了我们感知和传达历史的方式。我们提供的不仅仅是书籍或电影中的重建场景,而是一个让每个人都能自己可视化历史场景的工具。"
瑞士苏黎世大学古代史教授Felix K. Maier与该校计算语言学家、计算机科学家Phillip Strobel合作创建了这个交互式平台。他们将其视为教育工作者、研究人员、纪录片制作者和博物馆的宝贵工具——它既不产生完美的重建,也不声称绝对真实,而是提供视觉假设,鼓励人们更深入地参与历史。
这对合作伙伴在对我问题的联合书面回应中说:"我们无法重现罗马的凯旋式或希腊的节庆,但通过视觉建模,我们激发了证据与想象之间的对话。这个过程让我们意识到空白、不确定性和偏见,而这种意识本身就是一种知识形式。"
图像生成器如何训练
为了训练他们的系统,团队向现有的AI图像生成器输入了精心策划的近300张图像和说明文字,包括学术书籍中关于罗马服装、武器和建筑的插图,以及关于罗马凯旋游行的标注材料。
这对合作者说:"通过让这些材料在模型中运行,我们帮助它们捕捉到通常会遗漏的细节,避免回到通用的'古代风貌'陈词滥调。"
然后,他们让系统通过从约70篇关于罗马文化的研究文章和书籍组成的精选数据库中检索历史特定信息来丰富每个提示。
Maier和Strobel说:"精细化的提示不是宽泛或模糊的指令,而是详细说明服装、仪式行为或场景的具体细节,这使生成的图像更加具体和历史上合理。"
展示图像生成器能力的样本图像包括公元410年西哥特人洗劫罗马的场景,以及两名头戴花环的年轻女子前往宗教节庆的画面。使用OpenAI的Dall-E 3和微调版本的Flux Dev创建的精彩视频合集循环展示了阳光明媚的户外市场、整齐列队的装甲士兵、街头贫困市民以及统治者从战车上向公众致意的场景。
对于有丰富考古证据的事件,如凯旋游行,输出结果可以"令人印象深刻地接近"文本和考古学已知的情况。
他们说:"游行车辆、月桂冠和广场拥挤的建筑都以可识别的合理性出现。"但当他们试图生成可用文档较少的场景图像时——比如古罗马的牧神节(Lupercalia),"模型不可避免地会陷入推测。"
"重新体验历史"目前仅对拥有苏黎世大学邮箱地址的人开放。不过,其他人仍可以注册,并会在工具向公众开放时收到通知。
古罗马的智能手机
Maier和Strobel承认人们对AI偏见、误用和图像失真担忧的合理性。一些"重新体验历史"的图像具有明显的AI光泽感,还有常见的故障,如四肢在这里那里时隐时现。平台实验产生了一些特别滑稽的结果:罗马凯旋游行中的观众手持智能手机,西塞罗在元老院发表演讲时,看起来像是在对着麦克风说话。
这些学者说:"该技术在描绘被年龄、劳动或疾病标记的人时也有困难——它往往默认为理想化的、完美的形象。"
创作者还面临了反映人们对生成式AI更大恐惧的批评——像他们这样的系统可能会削弱人类想象力。他们相信情况恰恰相反,围绕AI的辩论不应该只关注风险,还应该关注可能性。
他们说:"通过提供努力追求合理性的可视化,我们的平台不是取代想象力,而是激发想象力。"
Q&A
Q1:重新体验历史平台是什么?它能做什么?
A:重新体验历史是由瑞士苏黎世大学开发的AI图像生成器,专门基于学术资料生成古罗马和希腊的历史场景。它能帮助教育工作者、研究人员、纪录片制作者和博物馆可视化历史场景,提供视觉假设来鼓励更深入的历史参与。
Q2:这个AI系统是如何训练的?
A:团队向AI图像生成器输入了近300张精心策划的图像和说明文字,包括学术书籍中的罗马服装、武器、建筑插图等。系统还从约70篇罗马文化研究文章和书籍中检索历史信息,通过具体细节而非模糊指令来生成更准确的历史图像。
Q3:这个平台目前有什么局限性?
A:平台生成的图像有时会出现AI特有的光泽感和技术故障,比如四肢时隐时现。更有趣的是,它有时会产生时代错误,如古罗马观众手持智能手机、西塞罗对着麦克风演讲等。技术在描绘年老、劳累或患病的人时也有困难,往往默认为理想化形象。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
浙江大学等高校研究团队开发的VolSplat系统,通过"体素对齐"替代传统"像素对齐"方法,实现了快速高质量的3D场景重建。该技术仅需6张普通照片即可生成精确3D模型,在RealEstate10K等标准数据集上显著超越现有方法,为机器人导航、增强现实、建筑设计等领域提供了新的技术选择,代表了3D重建领域从二维思维向三维思维的重要转变。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
武汉大学团队与字节跳动公司合作,提出MAPO混合优势策略优化方法,解决AI训练中的"一刀切"问题。该方法能根据问题难度动态调整评分策略,避免传统方法中的优势反转和优势镜像问题。通过轨迹确定性判断和权重动态调整,在几何推理和情感识别任务上都取得显著提升,为AI自适应学习提供新思路。