2008年,谷歌推出Chrome浏览器,希望将其行业领先的搜索引擎更好地整合到网页浏览体验中。今天,OpenAI宣布了Atlas浏览器,希望为其ChatGPT大语言模型做类似的事情,回答"如果我能与浏览器聊天会怎样?"这个问题,正如OpenAI团队所说。
OpenAI创始人兼首席执行官Sam Altman在直播发布会上表示,Atlas将让用户能够"与页面聊天",帮助ChatGPT成为用户与"大量工作和生活发生"的在线世界互动的核心方式。"我们希望人们未来使用互联网的方式...是聊天体验和网页浏览器能够成为一个很好的类比,"他说。
新浏览器现在可在macOS上下载,Altman承诺Windows和移动版本将"尽快"推出。
跟随你的大语言模型
新Atlas标签页的主屏幕反映了Chrome搜索框的简洁性,有一个文本字段提示用户"询问ChatGPT或输入URL"。用户可以使用类似ChatGPT.com的界面访问他们的聊天历史或不同的ChatGPT模型。Atlas浏览器还会在搜索框下方填充建议,这些建议可能包括新闻故事的链接或浏览器可以为您执行的任务建议。
在直播中,OpenAI团队表示Atlas具有网络用户期望从浏览器获得的功能:标签页、书签和自动填充等。但与ChatGPT的集成现在意味着"聊天在浏览体验中无处不在"。
这意味着您可以使用ChatGPT通过人类可解析的语言提示搜索您的书签或浏览历史。这也意味着您可以在当前页面旁边调出"侧边聊天",并询问依赖该特定页面上下文的问题。如果您想使用ChatGPT编辑Gmail草稿,现在可以直接在草稿窗口中完成,无需在ChatGPT窗口和编辑器之间复制粘贴。
在Atlas上输入简短搜索提示时,默认情况下,浏览器会作为大语言模型回复,提供包含适当来源链接的书面答案(类似于OpenAI现有的搜索功能)。但浏览器还会提供更传统的链接、图像、视频或新闻列表的标签页,就像您从没有大语言模型功能的搜索引擎获得的结果一样。
让我们来浏览
为了总结直播演示,OpenAI团队展示了Atlas的智能体模式。虽然"预览模式"功能仅适用于ChatGPT Plus和Pro订阅者,研究负责人Will Ellsworth表示,他希望它最终能帮助用户实现"惊人的生活便利工具",就像大语言模型编程工具已经成为"便利编程"工具一样。
为此,团队展示了浏览器在几分钟内将Google Docs表格中写的规划任务移动到任务管理软件Linear的过程。智能体模式还展示了从食谱网页获取配料清单并直接添加到用户在不同标签页中的Instacart购物车(尽管演示智能体在结账前停下来获得用户批准)。
Atlas用户可以观看智能体模式在各种标签页和网页间点击,随时接管,或者让它在后台无监督运行。用户可以直接使用下拉菜单激活智能体模式,但当用户提示建议一个它可能能够帮助的任务时,ChatGPT也可以建议打开它。
OpenAI团队表示,智能体模式可以像人类用户一样点击,完全访问该用户的身份验证和浏览历史。但智能体模式只能在网页标签页内操作,不能在浏览器外执行代码,OpenAI说。您还可以手动控制新的Atlas标签页是否"登录"或"注销"各种其他网络服务,并使用隐身窗口进行您不希望大语言模型记住的浏览。
竞争激烈的领域
浏览器领域的老牌竞争者一直在尝试将类似的AI功能集成到他们的产品中:微软在Edge浏览器中内置了Copilot版本,谷歌在Chrome中集成了Gemini功能,承诺在未来几个月内包含"智能体功能"。许多初创公司也专注于从头开始构建AI驱动的浏览器,最引人注目的是Perplexity,它最近大胆出价345亿美元收购Chrome,尽管其总市值仅为1400万美元。
OpenAI也在4月份公开表达了购买Chrome的兴趣,尽管该反垄断案件最近的法律更新意味着谷歌现在似乎不太可能在近期内出售。
《The Information》去年报道了OpenAI的浏览器计划,路透社在7月份跟进了来自匿名消息来源的更多信息。路透社指出,浏览器将为OpenAI提供更直接的有价值用户数据访问,超出输入ChatGPT提示窗口的内容,并可能为将广告集成到ChatGPT体验中提供简单方式。但当然,这一切都取决于ChatGPT每周7亿多活跃用户中有多少愿意放弃他们当前的浏览器,转而使用来自主要大语言模型品牌的不太成熟的竞争对手。
Q&A
Q1:Atlas浏览器是什么?它有什么特殊功能?
A:Atlas是OpenAI推出的新网页浏览器,核心特色是深度集成ChatGPT大语言模型。用户可以在浏览器中直接与页面聊天,使用自然语言搜索书签和浏览历史,还能调出侧边聊天功能询问关于当前页面的问题,甚至直接在Gmail等网页应用中让ChatGPT编辑文本。
Q2:Atlas浏览器的智能体模式能做什么?
A:智能体模式是Atlas的高级功能,目前仅对ChatGPT Plus和Pro订阅用户开放。它可以像人类用户一样自动点击网页,执行复杂任务,比如将Google Docs中的规划任务转移到Linear软件,或者从食谱网页提取配料并添加到Instacart购物车中,大大提高工作效率。
Q3:Atlas浏览器面临哪些竞争?
A:Atlas进入了竞争激烈的浏览器市场。微软已在Edge浏览器中集成Copilot,谷歌承诺在Chrome中推出Gemini智能体功能。同时还有Perplexity等AI驱动的初创浏览器竞争对手。Atlas需要从ChatGPT的7亿多周活用户中吸引用户放弃现有浏览器。
好文章,需要你的鼓励
随着大语言模型在人工智能时代展现强大力量,可穿戴设备成为收集人体数据的重要载体。通过实时监测血压、心率、血糖等生命体征,结合AI边缘计算能力,医疗正向个性化转型。基因治疗、数字孪生技术让每个人都能拥有专属的医疗数字化身,实现从"报销型医疗"向"创新循证医疗"的转变,为疾病预防和健康管理带来革命性突破。
这项由DP Technology和北京大学联合完成的研究提出了SphereAR方法,通过超球面约束解决连续标记自回归图像生成中的方差崩溃问题。该方法将所有输入输出限制在固定半径球面上,实现尺度不变性,在ImageNet数据集上创下自回归模型新纪录,SphereAR-H达到1.34 FID分数,首次让纯自回归方法在同等参数规模下超越扩散和遮蔽生成模型。
在巴黎举办的欧洲开放基础设施峰会期间,专门用一整天时间讨论VMware迁移问题。博通收购VMware后许可证价格上涨,导致客户运营成本大幅增加。开源开发者展示了将VMware虚拟机迁移到开源替代方案的产品。Forrester分析师指出VMware客户对此感到信任破裂。OpenStack等开源解决方案虽然复杂度较高,但提供了健康的开源生态系统替代方案。
微软研究院联合清华大学开发的PixelCraft系统,通过多智能体协作突破了AI视觉推理瓶颈。该系统采用专业分工模式,包含调度员、规划员、推理员等角色,配备图像记忆库实现灵活推理。在权威测试中准确率提升5-9个百分点,特别擅长分析复杂图表和几何图形,为科研、金融、教育等领域提供精确的视觉分析能力。