谷歌带有语音输入功能的搜索实时功能现已在美国地区的iOS和Android应用程序中推出。用户需要在实验室模式中选择启用AI模式才能使用该功能,启用后便可与搜索进行双向语音对话。
要使用此功能,用户需打开谷歌应用程序并点击新的实时图标进行语音提问。谷歌将通过AI生成音频进行回应,用户还可以自然地提出后续问题。该功能的技术核心是一个具备先进语音功能的定制版Gemini。
谷歌表示,这项功能特别适合在外出或多任务处理时使用,比如打包行李。在谷歌提供的示例中,用户询问如何防止亚麻裙子在行李箱中起皱,Gemini进行了语音回应。随后用户提出了几个后续问题,无需退出搜索实时界面或再次点击实时图标。用户甚至可以在打开其他应用程序时继续对话,也可以查看谷歌回应的文字记录,并在希望转换为文字对话时输入更多问题。
虽然该功能具有成为便利工具的潜力,但谷歌获取信息的原始来源可能无法从这种交互中获得任何流量。谷歌确实在搜索实时界面上显示了来自网络各处的链接,但这些链接以微小卡片的形式显示,如果用户确实在与Gemini对话时同时进行其他活动,这些链接很容易被忽略。
在未来几个月中,谷歌将扩展搜索实时功能,增加实时显示和询问用户所见内容的能力。谷歌在今年的I/O大会上宣布了这项特定功能。例如,用户可以向搜索展示一道复杂的数学题并请求帮助解决,或要求解释难以理解的概念。
好文章,需要你的鼓励
SAP S/4HANA内存ERP系统推出十多年后,95%的传统用户表示构建积极的迁移案例需要巨大努力或面临真正挑战。一项涵盖455名CIO、高级IT角色、SAP专家和业务经理的调查发现,83%的受访者不完全理解SAP最新的迁移政策和截止日期,84%对当前信息传递及其对运营的影响表示担忧。SAP为传统ECC系统设定了激进的支持截止日期,主流支持将于2027年结束。
北京大学团队开发出WoW世界模型,这是首个真正理解物理规律的AI系统。通过200万机器人互动数据训练,WoW不仅能生成逼真视频,更能理解重力、碰撞等物理定律。其创新的SOPHIA框架让AI具备自我纠错能力,在物理理解测试中达到80.16%准确率。该技术将推动智能机器人、视频制作等领域发展,为通用人工智能奠定重要基础。
微软通过其Planetary Computer平台将NASA的Landsat和Sentinel-2卫星数据集引入Azure云服务。该数据集包含来自NASA的Landsat 8、9号卫星以及欧洲航天局Sentinel-2系列卫星的地球监测数据,为气候变化、土地利用、农业应用等研究提供宝贵资源。用户可通过API或Azure存储直接访问这些PB级全球环境数据。微软还建议研究人员使用Azure OpenAI服务创建智能应用,结合AI技术进行土地分类、植被监测、森林砍伐趋势分析等地球观测研究。
香港大学和蚂蚁集团联合推出PromptCoT 2.0,这是一种让AI自动生成高质量训练题目的创新方法。通过"概念-思路-题目"的三步策略,AI能像老师备课一样先构思解题思路再出题,大幅提升了题目质量和训练效果。实验显示该方法在数学竞赛和编程任务上都取得了显著提升,为解决AI训练数据稀缺问题提供了新思路。