Google 在去年年底率先推出深入研究功能后,现在正式向所有用户开放这项工具。从今天开始,Gemini 用户可以在超过 45 种语言中免费使用深入研究功能 — 无需订阅 Gemini Advanced。对于不熟悉的用户来说,深入研究功能允许你要求 Gemini 就复杂主题创建全面但易读的报告。
相比 Google 的新 AI 模式,深入研究的运行速度较慢,这是有意为之的设计。在开始搜索与你的提示相关信息之前,Gemini 会先制定一个研究计划。当 Google 首次宣布深入研究功能时,它由公司功能强大但成本较高的 Gemini 1.5 Pro 模型驱动。随着今天的功能扩展,Google 已将深入研究升级为使用新的 Gemini 2.0 Flash Thinking 实验模型 — 这个听起来有点拗口的名字其实就是一个可以将问题分解为一系列中间步骤的思维链系统。
对于这次升级,Google 表示:"这提升了 Gemini 在所有研究阶段的能力 — 从规划和搜索到推理、分析和报告 — 创建更高质量、更详细且富有洞察力的多页报告。"
如果深入研究功能听起来很熟悉,那是因为包括 ChatGPT 在内的多个聊天机器人现在都提供这项功能。然而,Google 一直走在行业前列。它不仅是最早提供这项工具的公司之一,而且现在也比 OpenAI 等竞争对手更早向所有用户广泛开放这项功能。
另外,Google 今天还宣布推出一项名为 Gemini 个性化的实验性功能。同样使用 Flash Thinking 模型,这不仅让公司能够将深入研究功能带给更多用户,还能让 Gemini 根据你使用的 Google 应用和服务信息来调整其响应。
Google 表示:"经你许可,Gemini 现在可以根据你的过往搜索记录定制回复,为你节省时间并提供更精准的答案。"在未来几个月内,Gemini 将能够从更多 Google 服务中获取上下文信息,包括 Photos 和 YouTube。"这将使 Gemini 能够提供更个性化的见解,从你的活动和偏好中获得更广泛的理解,从而提供真正与你产生共鸣的回答。"
要启用此功能,请在 Gemini Apps 界面的模型下拉菜单中选择"个性化 (实验性)"。Google 解释说,Gemini 只会在认为信息可能有用时才利用你的搜索历史。如果你觉得这项功能有侵犯隐私的问题,可以通过横幅中的链接轻松关闭它。从今天开始,Gemini 和 Gemini Advanced 用户可以在网页版上使用这项功能,移动版本将随后推出。
好文章,需要你的鼓励
这项由浙江大学与阿里巴巴通义实验室联合开展的研究,通过创新的半在线强化学习方法,显著提升了AI界面助手在多步骤任务中的表现。UI-S1-7B模型在多个基准测试中创造了7B参数规模的新纪录,为GUI自动化代理的发展开辟了新的技术路径。
阿里巴巴联合浙江大学开发的OmniThink框架让AI学会像人类一样慢思考写作。通过信息树和概念池的双重架构,系统能够动态检索信息、持续反思,突破了传统AI写作内容浅薄重复的局限。实验显示该方法在文章质量各维度均显著超越现有最强基线,知识密度提升明显,为长文本生成研究开辟了新方向。
新加坡国立大学研究人员开发出名为AiSee的可穿戴辅助设备,利用Meta的Llama模型帮助视障人士"看见"周围世界。该设备采用耳机形态,配备摄像头作为AI伴侣处理视觉信息。通过集成大语言模型,设备从简单物体识别升级为对话助手,用户可进行追问。设备运行代理AI框架,使用量化技术将Llama模型压缩至10-30亿参数在安卓设备上高效运行,支持离线处理敏感文档,保护用户隐私。
腾讯混元3D 2.0是一个革命性的3D生成系统,能够从单张图片生成高质量的带纹理3D模型。该系统包含形状生成模块Hunyuan3D-DiT和纹理合成模块Hunyuan3D-Paint,采用创新的重要性采样和多视角一致性技术,在多项评估指标上超越现有技术,并提供用户友好的制作平台。作为开源项目,它将大大降低3D内容创作门槛,推动3D技术的普及应用。