谷歌带有语音输入功能的搜索实时功能现已在美国地区的iOS和Android应用程序中推出。用户需要在实验室模式中选择启用AI模式才能使用该功能,启用后便可与搜索进行双向语音对话。
要使用此功能,用户需打开谷歌应用程序并点击新的实时图标进行语音提问。谷歌将通过AI生成音频进行回应,用户还可以自然地提出后续问题。该功能的技术核心是一个具备先进语音功能的定制版Gemini。
谷歌表示,这项功能特别适合在外出或多任务处理时使用,比如打包行李。在谷歌提供的示例中,用户询问如何防止亚麻裙子在行李箱中起皱,Gemini进行了语音回应。随后用户提出了几个后续问题,无需退出搜索实时界面或再次点击实时图标。用户甚至可以在打开其他应用程序时继续对话,也可以查看谷歌回应的文字记录,并在希望转换为文字对话时输入更多问题。
虽然该功能具有成为便利工具的潜力,但谷歌获取信息的原始来源可能无法从这种交互中获得任何流量。谷歌确实在搜索实时界面上显示了来自网络各处的链接,但这些链接以微小卡片的形式显示,如果用户确实在与Gemini对话时同时进行其他活动,这些链接很容易被忽略。
在未来几个月中,谷歌将扩展搜索实时功能,增加实时显示和询问用户所见内容的能力。谷歌在今年的I/O大会上宣布了这项特定功能。例如,用户可以向搜索展示一道复杂的数学题并请求帮助解决,或要求解释难以理解的概念。
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。