苹果新研究：设计师亲自训练AI生成更优质界面

苹果研究团队发布新论文，提出让专业设计师通过评论、草图和直接编辑等方式指导AI模型生成更好的用户界面。研究显示，基于设计师原生工作流程的反馈训练方法比传统强化学习效果更佳。21名设计师参与研究，提供1460个标注样本。最终训练的模型在界面设计质量上显著超越基础模型，甚至优于GPT-5。研究发现设计师通过草图和直接编辑提供反馈时，研究团队与设计师的一致性分别达到63.6%和76.1%。

几个月前，苹果研究团队发布了一项关于训练AI生成功能性UI代码的有趣研究。

与设计质量不同，该研究重点确保AI生成的代码能够实际编译，并在界面功能和外观方面大致匹配用户的提示要求。

研究成果是UICoder，这是一个开源模型系列。

现在，负责UICoder的部分团队发布了一篇新论文，题为《从设计师反馈改进用户界面生成模型》。

在论文中，研究人员解释说，现有的人类反馈强化学习(RLHF)方法并不是训练大语言模型可靠生成优质UI设计的最佳方法，因为这些方法"与设计师的工作流程不匹配，忽略了用于批评和改进UI设计的丰富理由"。

为解决这个问题，他们提出了不同的路径。他们让专业设计师使用评论、草图甚至直接编辑来直接批评和改进模型生成的UI，然后将这些前后变化转换为用于微调模型的数据。

这使他们能够基于具体的设计改进来训练奖励模型，有效地教会UI生成器偏好更好地反映真实世界设计判断的布局和组件。

总共有21名设计师参与了这项研究。

研究人员收集了1460个标注，然后将其转换为配对的UI"偏好"示例，对比原始模型生成的界面与设计师改进版本。

这反过来被用于训练奖励模型以微调UI生成器。

关于生成器模型，苹果使用Qwen2.5-Coder作为UI生成的主要基础模型，后来将同样的设计师训练奖励模型应用到较小和较新的Qwen变体上，以测试该方法在不同模型大小和版本之间的泛化能力。

有趣的是，正如研究作者自己指出的，该框架最终看起来很像传统的RLHF管道。他们认为，区别在于学习信号来自设计师原生工作流程(评论、草图和直接修订)，而不是点赞/点踩或简单排名数据。

那么，这真的有效吗？根据研究人员的说法，答案是肯定的，但有重要注意事项。

总体而言，在设计师原生反馈(特别是草图和直接修订)上训练的模型产生的UI设计质量明显高于基础模型和仅使用传统排名或评级数据训练的版本。

事实上，研究人员注意到他们表现最好的模型(使用草图反馈微调的Qwen3-Coder)超越了GPT-5。更令人印象深刻的是，这最终仅源自设计师的181个草图标注。

至于注意事项，研究人员注意到主观性在什么构成良好界面方面起着很大作用。

在研究中，这种差异表现为对哪些设计实际更好的分歧。当研究人员独立评估设计师排名的相同UI配对时，他们只有49.2%的时间同意设计师的选择，几乎是抛硬币的概率。

另一方面，当设计师通过绘制改进草图或直接编辑UI提供反馈时，研究团队同意这些改进的频率要高得多：草图为63.6%，直接编辑为76.1%。

换句话说，当设计师能够具体展示他们想要改变什么，而不仅仅是在两个选项之间选择时，更容易就什么是"更好"达成一致。

Q&A

Q1：苹果研究团队提出的新训练方法有什么特点？

A：苹果研究团队让专业设计师使用评论、草图甚至直接编辑来直接批评和改进模型生成的UI，然后将这些前后变化转换为用于微调模型的数据。这种方法来自设计师原生工作流程，而不是简单的点赞/点踩或排名数据。

Q2：新方法训练的模型效果如何？

A：使用设计师原生反馈训练的模型产生的UI设计质量明显高于基础模型和传统方法训练的版本。表现最好的模型Qwen3-Coder甚至超越了GPT-5，而这仅源自设计师的181个草图标注。

Q3：设计师反馈方式的有效性如何？

A：研究发现，当设计师仅在两个选项间排名时，研究人员只有49.2%的时间同意其选择。但当设计师通过草图或直接编辑提供具体反馈时，同意率分别提升至63.6%和76.1%。

来源：9to5mac

0赞

好文章，需要你的鼓励

苹果新研究：设计师亲自训练AI生成更优质界面

来源：9to5mac

2026

02/09

18:30

分享

点赞

Glean年收入突破3亿美元，削减AI成本成核心卖点

蓝色起源"新格伦"火箭在佛罗里达测试中发生爆炸

智能体AI正在重塑企业架构与Token经济学

堪培拉理工学院如何借助技术革新重塑课堂教学体验

Gemma 4携手Arm：优化端侧AI，加速移动应用体验

制药公司与初创企业如何携手推动AI落地

《星球大战》导演盛赞生成式AI：电影制作的革命性工具

Salesforce借助Informatica布局企业级无头数据管理架构

几乎所有M5 MacBook Air配置现在都降价近200美元

企业用好Agent，关键不在“买一个智能体”｜原点Talk 分享会

大模型评测风向变了，Testin云测如何构建企业级AI质量标尺？

因民事养老金管理失误，英国政府拒绝向Capita授予5.63亿英镑合同

Atlassian承诺在添加AI功能时控制成本并保持利润率

亚马逊AI产能建设速度跟不上需求，再投2000亿美元

Sapiom获得1500万美元融资助力智能体自主购买技术工具

纽约州考虑推出两项法案以规范AI产业发展

CoreWeave推出真实环境测试实验室验证AI生产就绪性

16个Claude智能体协作开发全新C编译器

Anthropic最强Claude AI模型再次升级，编程能力显著增强

Crypto.com创始人收购AI.com域名并投放超级碗广告

WordPress推出Claude连接器，AI助手可读取网站数据

从Svedka到Anthropic，品牌在超级碗广告中大胆运用AI

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: