谷歌在今年4月推出MacOS版Gemini应用后,日前又在谷歌I/O 2026开发者大会上宣布,将于今后几个月内为该MacOS应用带来语音功能,以及最新发布的爪形自主AI智能体——Gemini Spark。
在位于加利福尼亚州山景城的谷歌总部举办的谷歌I/O大会上,谷歌实验室、Gemini应用及AI Studio副总裁乔什·伍德沃德现场演示了这一功能。他以上传至MacBook的宠物相关文件为例,包括疫苗接种记录和过敏清单等,展示了如何长按功能键,并通过语音向AI智能体发出指令。
演示过程中可以看到,用户不仅能通过语音指示Gemini根据所选文件起草一封邮件(还可要求语气"友好"),同时还能要求Gemini将选中的文件整理成表格。松开功能键后,Gemini便会依据多条语音指令逐一执行。
伍德沃德介绍道:"由于我在访达中选定了这些文件,Gemini凭借其多模态理解能力,可以读取PDF、识别发票图片,整个过程完全由语音控制,能够处理所有复杂信息,并直接生成内嵌表格。"
用户可前往gemini.google/mac下载MacOS版Gemini应用,并通过快捷键快速启动。在MacBook上,随时按下Option加空格键即可唤起Gemini。目前该应用已支持Nano Banana图像生成等多项核心功能。
尽管大多数用户习惯通过手机或网页端使用AI聊天工具,但为桌面操作系统开发原生应用已成为一个新兴趋势。考虑到Gemini即将为苹果重新设计的AI版Siri提供底层支持,MacBook同步接入Gemini也在情理之中。
Gemini语音功能与Gemini Spark预计将于今年夏天正式登陆MacOS平台。
Q&A
Q1:MacOS版Gemini应用的语音功能怎么使用?
A:在MacBook上,用户只需长按功能键,即可通过语音向Gemini发出指令。例如,可以选中访达中的多个文件,然后语音要求Gemini起草相关邮件或将文件整理成表格。松开功能键后,Gemini会同时处理多条语音指令并执行。整个过程支持多模态理解,可读取PDF和图片等多种格式的文件。
Q2:Gemini Spark是什么?
A:Gemini Spark是谷歌在I/O 2026大会上最新发布的自主AI智能体,被描述为具有"爪形"交互特性的自主AI助手。它将随Gemini语音功能一同于今年夏天登陆MacOS平台,进一步扩展Gemini在桌面端的能力边界。
Q3:如何在MacBook上下载和启动Gemini应用?
A:用户可以访问gemini.google/mac下载MacOS版Gemini应用。安装后,在MacBook上随时按下Option加空格键即可快速唤起Gemini。目前该应用已支持Nano Banana图像生成等功能,语音功能和Gemini Spark将在今年夏天上线。
好文章,需要你的鼓励
仿人机器人与自动驾驶汽车在区域架构、功能安全及雷达传感方面高度相似。多分辨率摄像头组合可更好地模拟人类视野,兼顾广角低保真与局部高精度需求。自然运动需实时计算正逆运动学、距离与深度,同时须兼顾功耗效率。当前视觉与基础操控技术最为成熟,而触觉、全身协调及非结构化环境中的移动能力仍是主要挑战。业界正借鉴自动驾驶经验,加速推进仿人机器人的规模化落地。
这项研究提出Epi2Diff方法,通过将大型推理模型的解题思考过程拆解为认知片段序列,提取过程特征预测考题对人类的难度,在四个真实考试数据集上超越了所有对比基线。
随着AI技术发展,攻击者可融合白市、灰市及黑市数据,构建个人及其环境的数字孪生体,使定向攻击更为便捷。专家指出,AI与网络安全的核心交汇点是数据本身。防御AI数据融合攻击需依赖硬件信任根、强加密、安全密钥存储及严格的数据匿名化措施。芯片架构师需将安全设计嵌入硬件层,确保数据完整性验证、隔离执行及认证数据流,以应对日益复杂的运行时攻击面。
南京大学与阿里巴巴提出MIMFlow,将掩码图像建模与标准化流端到端融合,让生成模型专注语义建模,以更少参数和更少令牌在ImageNet上取得FID 2.50的优异表现。