苹果公司计划利用AI标签技术改善App Store应用发现能力的功能现已在iOS 26开发者测试版中正式上线。
不过,这些标签目前尚未在公开版App Store中显示,也未被纳入公开商店的App Store搜索算法中。
当然,对于任何即将到来的App Store更新,外界都在猜测这些变化将如何影响应用的搜索排名。
例如,应用情报提供商Appfigures的一项新分析表明,从应用截图中提取的元数据正在影响其排名表现。该公司推测苹果正在从截图说明中提取文本信息。此前,只有应用名称、副标题和关键词列表才会影响搜索排名。
基于苹果在全球开发者大会(WWDC 25)上的公告,截图确实会影响应用的可发现性这一结论是准确的,但苹果提取数据的方式涉及AI技术,而非Appfigures猜测的OCR技术。
在年度开发者大会上,苹果解释称将使用截图和其他元数据来帮助提升应用的可发现性。公司表示正在使用AI技术提取原本隐藏在应用描述、类别信息、截图或其他元数据中的信息。这也意味着开发者无需在截图中添加关键词或采取其他步骤来影响标签生成。
这使得苹果能够分配标签来更好地对应用进行分类。最终,开发者将能够控制哪些AI分配的标签与其应用关联。
此外,苹果向开发者保证,人工审核员会在标签上线前进行审查。
随着时间推移,当标签功能面向全球App Store用户推出时,开发者需要更好地理解标签机制,以及哪些标签有助于提升应用的可发现性。
好文章,需要你的鼓励
本文探讨了一种防范通用人工智能(AGI)和人工超级智能(ASI)存在性风险的方法:将它们置于计算机仿真世界中进行测试。虽然这种方法看似合理,但存在诸多挑战。AGI可能会隐藏恶意行为,或因被欺骗而转向恶意。此外,仿真环境可能无法完全模拟真实世界,导致测试结果不准确。构建高质量仿真系统的成本和技术难度也不容忽视。文章认为,仿真测试虽有价值,但并非万能解决方案。
这项研究关注语音中的句子强调(即说话时对特定词的重音),它能传达说话者的潜在意图。耶路撒冷希伯来大学的研究团队发现,尽管现代语音语言模型进步显著,它们在理解句子强调方面表现不佳。团队创建了StressTest基准测试和Stress-17k合成数据集,并开发了StresSLM模型,使强调理解能力大幅提升。研究表明,通过特定训练策略,可以让AI不仅理解"说了什么",还能理解"怎么说的",从而捕捉人类交流中的微妙含义。
尽管AI在围棋等复杂游戏中表现出色,但在简单的井字棋游戏中却屡屡失败。研究显示,AI代理在模拟商业环境中的表现同样令人失望,经常出现幻觉、欺骗和任务未完成等问题。游戏测试为评估AI能力提供了直观方式,帮助普通用户理解AI的真实水平。面对当前AI行业的过度宣传,通过游戏化测试揭示AI的实际局限性,对于防范AI泡沫具有重要意义。
ViStoryBench是一个全面的故事可视化评估基准,由StepFun团队打造,用于测试AI将文字故事转化为连贯图像序列的能力。它包含80个多样化故事和344个角色参考,评估包括角色一致性、提示遵循度等多个维度。研究测试了20多种方法,发现UNO在开源方法中表现最佳,而商业软件如豆包和GPT-4o在提示一致性方面表现突出。该基准为故事可视化研究提供了统一标准,推动这一领域的创新发展。