谷歌新推出的AI语音转写应用Google AI Edge Eloquent已于周一正式发布,这是一款可离线工作的AI听写应用。该应用提供了多项先进功能,能够将用户的断续话语转换为几乎无需编辑的可用文本。
谷歌正致力于解决一个长期存在的问题——语音转文本听写的不准确或表达不清晰。近年来这一问题虽有改善但仍然存在。有时是因为应用未能正确翻译所说内容,有时则是因为说话者的犹豫和漫谈,使文本中充斥着停顿和填充词,如"嗯"和"呃"。
使用这款新应用时,用户只需点击按钮,对着麦克风说话,文本就会出现在屏幕上。完成后,谷歌的设备端Gemma模型将自动优化文本。
App Store的描述显示,所有的"嗯"、"呃"和句中自我纠正都会被编辑删除,留下干净的文本供用户进一步自定义。
AI Edge Eloquent可完全离线工作,所有内容都保存在设备上。用户可以将应用连接到谷歌账户,这样它就能根据Gmail数据构建词典,或者连接到云端,通过Gemini获得更强的文本优化能力。
该应用界面简洁,底部有一排图标菜单,分别是录音、历史记录、词典和设置。用户可以手动向词典添加词汇,如果存在拼写错误,应用会自动添加用户已编辑的词汇,例如当应用拼错姓名时。
这款应用无需订阅付费。
虽然谷歌在其许多产品中已经具备语音转文本功能,但对于那些寻求免费独立选项并希望获得文本优化功能的用户来说,这可能是一个不错的选择。
该应用目前尚未面向Android用户推出,但Apple App Store的描述承诺提供"无缝Android集成"。
谷歌代表暂未就此立即回复置评请求。
Q&A
Q1:Google AI Edge Eloquent是什么?
A:Google AI Edge Eloquent是谷歌新推出的AI语音转写应用,可以离线工作,能将用户的断续话语转换为几乎无需编辑的可用文本,并自动去除"嗯"、"呃"等填充词和停顿。
Q2:这款应用需要付费吗?支持哪些平台?
A:该应用完全免费,无需订阅付费。目前只支持iOS平台,Android版本尚未发布,但App Store描述承诺将提供"无缝Android集成"。
Q3:Google AI Edge Eloquent如何保护隐私?
A:该应用可完全离线工作,所有数据都保存在设备上。用户可选择连接谷歌账户构建个人词典,或连接云端获得更强的文本优化功能,但这些都是可选的。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。