谷歌带有语音输入功能的搜索实时功能现已在美国地区的iOS和Android应用程序中推出。用户需要在实验室模式中选择启用AI模式才能使用该功能,启用后便可与搜索进行双向语音对话。
要使用此功能,用户需打开谷歌应用程序并点击新的实时图标进行语音提问。谷歌将通过AI生成音频进行回应,用户还可以自然地提出后续问题。该功能的技术核心是一个具备先进语音功能的定制版Gemini。
谷歌表示,这项功能特别适合在外出或多任务处理时使用,比如打包行李。在谷歌提供的示例中,用户询问如何防止亚麻裙子在行李箱中起皱,Gemini进行了语音回应。随后用户提出了几个后续问题,无需退出搜索实时界面或再次点击实时图标。用户甚至可以在打开其他应用程序时继续对话,也可以查看谷歌回应的文字记录,并在希望转换为文字对话时输入更多问题。
虽然该功能具有成为便利工具的潜力,但谷歌获取信息的原始来源可能无法从这种交互中获得任何流量。谷歌确实在搜索实时界面上显示了来自网络各处的链接,但这些链接以微小卡片的形式显示,如果用户确实在与Gemini对话时同时进行其他活动,这些链接很容易被忽略。
在未来几个月中,谷歌将扩展搜索实时功能,增加实时显示和询问用户所见内容的能力。谷歌在今年的I/O大会上宣布了这项特定功能。例如,用户可以向搜索展示一道复杂的数学题并请求帮助解决,或要求解释难以理解的概念。
好文章,需要你的鼓励
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。