几个月前,苹果研究团队发布了一项关于训练AI生成功能性UI代码的有趣研究。
与设计质量不同,该研究重点确保AI生成的代码能够实际编译,并在界面功能和外观方面大致匹配用户的提示要求。
研究成果是UICoder,这是一个开源模型系列。
现在,负责UICoder的部分团队发布了一篇新论文,题为《从设计师反馈改进用户界面生成模型》。
在论文中,研究人员解释说,现有的人类反馈强化学习(RLHF)方法并不是训练大语言模型可靠生成优质UI设计的最佳方法,因为这些方法"与设计师的工作流程不匹配,忽略了用于批评和改进UI设计的丰富理由"。
为解决这个问题,他们提出了不同的路径。他们让专业设计师使用评论、草图甚至直接编辑来直接批评和改进模型生成的UI,然后将这些前后变化转换为用于微调模型的数据。
这使他们能够基于具体的设计改进来训练奖励模型,有效地教会UI生成器偏好更好地反映真实世界设计判断的布局和组件。
总共有21名设计师参与了这项研究。
研究人员收集了1460个标注,然后将其转换为配对的UI"偏好"示例,对比原始模型生成的界面与设计师改进版本。
这反过来被用于训练奖励模型以微调UI生成器。
关于生成器模型,苹果使用Qwen2.5-Coder作为UI生成的主要基础模型,后来将同样的设计师训练奖励模型应用到较小和较新的Qwen变体上,以测试该方法在不同模型大小和版本之间的泛化能力。
有趣的是,正如研究作者自己指出的,该框架最终看起来很像传统的RLHF管道。他们认为,区别在于学习信号来自设计师原生工作流程(评论、草图和直接修订),而不是点赞/点踩或简单排名数据。
那么,这真的有效吗?根据研究人员的说法,答案是肯定的,但有重要注意事项。
总体而言,在设计师原生反馈(特别是草图和直接修订)上训练的模型产生的UI设计质量明显高于基础模型和仅使用传统排名或评级数据训练的版本。
事实上,研究人员注意到他们表现最好的模型(使用草图反馈微调的Qwen3-Coder)超越了GPT-5。更令人印象深刻的是,这最终仅源自设计师的181个草图标注。
至于注意事项,研究人员注意到主观性在什么构成良好界面方面起着很大作用。
在研究中,这种差异表现为对哪些设计实际更好的分歧。当研究人员独立评估设计师排名的相同UI配对时,他们只有49.2%的时间同意设计师的选择,几乎是抛硬币的概率。
另一方面,当设计师通过绘制改进草图或直接编辑UI提供反馈时,研究团队同意这些改进的频率要高得多:草图为63.6%,直接编辑为76.1%。
换句话说,当设计师能够具体展示他们想要改变什么,而不仅仅是在两个选项之间选择时,更容易就什么是"更好"达成一致。
Q&A
Q1:苹果研究团队提出的新训练方法有什么特点?
A:苹果研究团队让专业设计师使用评论、草图甚至直接编辑来直接批评和改进模型生成的UI,然后将这些前后变化转换为用于微调模型的数据。这种方法来自设计师原生工作流程,而不是简单的点赞/点踩或排名数据。
Q2:新方法训练的模型效果如何?
A:使用设计师原生反馈训练的模型产生的UI设计质量明显高于基础模型和传统方法训练的版本。表现最好的模型Qwen3-Coder甚至超越了GPT-5,而这仅源自设计师的181个草图标注。
Q3:设计师反馈方式的有效性如何?
A:研究发现,当设计师仅在两个选项间排名时,研究人员只有49.2%的时间同意其选择。但当设计师通过草图或直接编辑提供具体反馈时,同意率分别提升至63.6%和76.1%。
好文章,需要你的鼓励
Kollmorgen发布NDC布局助手软件工具,专为工厂和仓库中的自动导引车(AGV)及自主移动机器人(AMR)的路线规划与优化而设计。该工具通过分段分析路线,帮助工程师在系统部署前识别瓶颈与低效环节,提供行驶时间、车速及优化潜力等关键数据,并以可视化方式标注问题区域,从而缩短布局设计与验证周期。Kollmorgen表示,该工具未来还将融入AI驱动的优化能力。
这篇由加州大学圣地亚哥分校等六所机构联合发布的综述(arXiv:2605.02913,2026年4月),首次系统梳理了大型语言模型强化学习训练中长期被忽视的轨迹设计问题,提出了GFCR四模块框架(生成、过滤、控制、回放),覆盖数学、代码、多模态和智能代理等多个应用场景,并附有实用的故障诊断手册,为AI训练工程师提供系统性的方法论指导。
现代仓储已从幕后走向前台,配送速度成为品牌竞争核心。面对次日达甚至两小时送达的市场压力,领先履约中心借鉴敏捷开发理念,以周为单位迭代代码、机器人与工作流程。IoT信标、边缘计算与视觉识别模块构建双层架构,实现厘米级货盘追踪与低延迟决策。人机协作模式让员工从重体力劳动转向异常处理与数据分析,拣选准确率突破99%。同时,自动化系统实时采集碳排放数据,在提速的同时实现可量化的减排目标。
中国科学技术大学与FrameX.AI联合提出Stream-R1框架,针对AI视频生成蒸馏训练中"一视同仁"的核心缺陷,引入奖励模型对训练样本进行双重加权:在样本层面根据质量分数筛选可靠的学习信号,在像素与帧层面通过梯度显著性热力图集中优化最需改进的区域,使4步快速学生模型在VBench多项指标上超越慢速多步教师模型,推理速度提升30倍且不增加任何额外计算开销。