• 人工智能
  • 机器人
  • AGI
OpenAI推出GPT Image 1.5模型加速图像生成竞争

OpenAI推出GPT Image 1.5模型加速图像生成竞争

OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。

Zoom推出AI Companion 3.0智能体工作流程

Zoom推出AI Companion 3.0智能体工作流程

Zoom推出AI Companion 3.0,采用联邦AI架构结合自研模型与OpenAI、Anthropic等第三方大语言模型。新版本具备智能工作流、对话式工作界面等功能,可将会议对话转化为洞察、进度跟踪和文档内容。系统支持加密传输,不使用客户内容训练模型。用户可通过ai.zoom.us访问,或以每月10美元独立购买。

ChatGPT成为互联网最受阻止的爬虫机器人

ChatGPT成为互联网最受阻止的爬虫机器人

根据Cloudflare 2025年度报告,ChatGPT的爬虫GPTBot是互联网上被阻止最多的机器人,而其最大竞争对手谷歌则是最被允许的爬虫。报告显示,非人类机器人现占互联网流量的56.5%,其中AI服务爬虫增长最快。不同网站对爬虫态度各异,一些希望获得流量,另一些则认为机器人在未给予充分补偿的情况下获取价值。在爬取与推荐比率方面,Anthropic的表现最差,达到10万比1。

英伟达推出开源权重模型填补美国AI市场空白

英伟达推出开源权重模型填补美国AI市场空白

英伟达发布三款全新开源权重模型Nemotron,包括Nano、Super和Ultra三个版本,参数量分别为300亿、1000亿和5000亿。这些模型采用混合潜在专家架构,结合Mamba-2和Transformer技术,支持百万token上下文窗口,可在企业硬件上高效运行。英伟达还将开源训练数据和强化学习环境,帮助企业定制化模型。

Meta推出SAM Audio模型:AI音频分离新突破

Meta推出SAM Audio模型:AI音频分离新突破

Meta发布新款SAM Audio模型,能够通过文本、时间段标记和视频视觉选择等多种提示方式分离和编辑音频。该模型可从歌曲中提取特定乐器声音,或从录音中去除背景噪音,大幅减少传统音频编辑的手工操作。Meta声称这是首个统一的多模态音频分离模型,已在Segment Anything平台上线并开放下载。

艾伦人工智能研究所推出Molmo 2,为AI系统带来开放视频理解能力

艾伦人工智能研究所推出Molmo 2,为AI系统带来开放视频理解能力

艾伦人工智能研究所推出Molmo 2多模态模型系列,在图像理解基础上扩展至视频和多图像理解能力。该系列包含三个变体:8B、4B和2-O 7B模型,分别基于阿里巴巴Qwen 3和研究所自研Olmo模型构建。新模型在保持高效性能的同时显著缩小了参数规模,8B模型在关键图像理解任务上超越了原版720亿参数模型。Molmo 2具备视频定位、多对象追踪和时序推理等创新功能,为物理AI、自动驾驶、机器人等领域提供重要技术支撑。

Adobe Firefly新增基于提示词的视频编辑功能

Adobe Firefly新增基于提示词的视频编辑功能

Adobe更新其AI视频生成应用Firefly,新增支持精确提示词编辑的视频编辑器,并集成Black Forest Labs的FLUX.2和Topaz Astra等第三方模型。新编辑器允许用户通过文本提示编辑视频元素、颜色和摄像机角度,提供时间轴视图便于调整帧、声音等特性。用户可使用Runway的Aleph模型进行具体指令操作,Adobe自有Firefly Video模型支持上传起始帧和参考视频重现摄像机角度。

GMV推进卫星导航技术助力自动驾驶运输与物流发展

GMV推进卫星导航技术助力自动驾驶运输与物流发展

GMV获得欧洲航天局合同,开发名为Beacon的先进波束成形天线接收系统,旨在提升低轨卫星C波段导航信号的抗干扰能力。该系统结合波束成形、零点导向和到达角估计技术,为自动驾驶运输、物流和无人系统提供可靠导航服务。项目为期18个月,投资80万欧元,将于2025年12月启动,通过实际环境测试验证系统性能,助力欧洲建立自主可靠的定位导航授时服务能力。

Meta推出SAM Audio模型:AI音频分离新突破

Meta推出SAM Audio模型:AI音频分离新突破

Meta发布新款SAM Audio模型,能够通过文本、时间段标记和视频视觉选择等多种提示方式分离和编辑音频。该模型可从歌曲中提取特定乐器声音,或从录音中去除背景噪音,大幅减少传统音频编辑的手工操作。Meta声称这是首个统一的多模态音频分离模型,已在Segment Anything平台上线并开放下载。

艾伦人工智能研究所推出Molmo 2,为AI系统带来开放视频理解能力

艾伦人工智能研究所推出Molmo 2,为AI系统带来开放视频理解能力

艾伦人工智能研究所推出Molmo 2多模态模型系列,在图像理解基础上扩展至视频和多图像理解能力。该系列包含三个变体:8B、4B和2-O 7B模型,分别基于阿里巴巴Qwen 3和研究所自研Olmo模型构建。新模型在保持高效性能的同时显著缩小了参数规模,8B模型在关键图像理解任务上超越了原版720亿参数模型。Molmo 2具备视频定位、多对象追踪和时序推理等创新功能,为物理AI、自动驾驶、机器人等领域提供重要技术支撑。

Adobe Firefly新增基于提示词的视频编辑功能

Adobe Firefly新增基于提示词的视频编辑功能

Adobe更新其AI视频生成应用Firefly,新增支持精确提示词编辑的视频编辑器,并集成Black Forest Labs的FLUX.2和Topaz Astra等第三方模型。新编辑器允许用户通过文本提示编辑视频元素、颜色和摄像机角度,提供时间轴视图便于调整帧、声音等特性。用户可使用Runway的Aleph模型进行具体指令操作,Adobe自有Firefly Video模型支持上传起始帧和参考视频重现摄像机角度。

GMV推进卫星导航技术助力自动驾驶运输与物流发展

GMV推进卫星导航技术助力自动驾驶运输与物流发展

GMV获得欧洲航天局合同,开发名为Beacon的先进波束成形天线接收系统,旨在提升低轨卫星C波段导航信号的抗干扰能力。该系统结合波束成形、零点导向和到达角估计技术,为自动驾驶运输、物流和无人系统提供可靠导航服务。项目为期18个月,投资80万欧元,将于2025年12月启动,通过实际环境测试验证系统性能,助力欧洲建立自主可靠的定位导航授时服务能力。

英伟达考虑增产H200芯片满足中国市场激增需求

英伟达考虑增产H200芯片满足中国市场激增需求

据路透社报道,在成功游说特朗普政府批准向中国销售H200芯片后,英伟达正考虑增加该芯片产量,因为中国企业正急于下订单。H200是英伟达上一代Hopper图形处理器中最强大的产品,专为训练大语言模型设计。商务部上周批准英伟达向中国销售H200GPU,但需上缴25%的销售收入。阿里巴巴和字节跳动等中国企业已联系英伟达商讨大宗订单事宜。

IBM推出开源智能体CUGA 任务完成率超五成

IBM推出开源智能体CUGA 任务完成率超五成

IBM研究人员发布了名为CUGA的开源AI代理,旨在自动化复杂的企业工作流程,任务完成率约为50%。CUGA全称为可配置通用代理,通过多代理编排、API集成和代码生成来实现智能任务自动化。在WebArena和AppWorld基准测试中,CUGA分别获得61.7%的Web任务成功率和48.2%的场景完成率。该系统采用Apache 2.0许可证发布,支持多种开源模型。