微软正在扩展其基于云的Fabric数据平台,将Oracle和谷歌BigQuery数据仓库纳入镜像功能,并基于内部LinkedIn项目推出新的图数据库。
这家雷德蒙德软件巨头于2023年首次发布Fabric平台,并在同年晚些时候推出镜像功能。该功能承诺帮助用户在Fabric分析系统中添加和管理现有的云数据仓库和数据库。现在,微软新增了从谷歌和Oracle外部数据库复制快照到OneLake Delta Lake表的能力,并保持副本近实时同步。
Azure数据首席副总裁Arun Ulag表示,在Fabric中,镜像功能意味着用户无需从支持的系统中提取、转换和加载(ETL)数据,也不用构建和维护数据管道。
"快照对于创建第一个副本是必需的,建立基线,但从那时起,Fabric会持续保持数据库更新,"他说。"延迟不到五分钟,Fabric会自动保持数据库和元数据实例与原始数据同步。"
不过,Ulag表示用户可能首先需要做一些基础工作。首先,Fabric需要获得Oracle数据库的权限,如果Oracle数据库位于本地系统或防火墙后面,用户需要在防火墙后配置Fabric企业网关来连接Oracle数据库。
"镜像的计算对客户是免费的,"Ulag说。"微软承担这部分成本。我们为客户提供存储,客户不必担心存储成本。我们镜像功能的目标是让数据完全可访问,以开源格式提供,这样整个Fabric和AI堆栈都能增加价值。"
Fabric中的镜像数据存储使用Apache Parquet文件格式和Linux基金会的Delta Lake开放表格式(OTF),这是Fabric湖仓系统OneLake的原生格式。
在镜像功能方面,微软还增加了对Apache Iceberg的支持,这是起源于Netflix并被谷歌、Snowflake和Cloudera采用的开放表格式。构建Delta Lake的Databricks已承诺加强两种格式之间的集成。
用户是否愿意接受微软的这一方案可能取决于他们的起始情况。对于深度使用Power BI和早期数据仓库版本Synapse等相关产品的组织来说,这可能是合乎逻辑的选择。谷歌、AWS、Oracle、Databricks和Snowflake已经有了自己对湖仓概念的解释,他们的用户可能会有不同的看法。
微软还宣布了Fabric中的图数据库功能,这是一个用于建模和分析企业数据关系的低代码/无代码平台。Ulag解释说,该数据库是由LinkedIn团队开发的,微软于2016年收购了LinkedIn。他表示,图数据库主要用于理解Fabric中数据之间的关系。
Q&A
Q1:微软Fabric平台的镜像功能有什么优势?
A:镜像功能让用户无需进行复杂的数据提取、转换和加载(ETL)操作,也不用构建和维护数据管道。微软免费提供计算和存储资源,延迟不到五分钟就能保持数据库与原始数据同步,数据以开源格式提供,便于整个AI堆栈使用。
Q2:使用Oracle数据库镜像需要什么条件?
A:首先需要获得Oracle数据库的访问权限。如果Oracle数据库位于本地系统或防火墙后面,用户需要在防火墙后配置Fabric企业网关来连接Oracle数据库。微软承担计算和存储成本,用户主要需要解决网络连接和权限问题。
Q3:微软Fabric中的图数据库有什么用途?
A:图数据库是基于LinkedIn团队开发的技术,提供低代码/无代码平台,主要用于建模和分析企业数据关系。它能够帮助用户更好地理解Fabric平台中各种数据之间的关联和关系,为数据分析提供支持。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。