艾伦人工智能研究院今天正式推出了AutoDiscovery,这是一个全新的人工智能系统,现已作为实验性功能提供,专门帮助科研人员在面对海量数据时提出正确的研究问题。
对于科学研究而言,在大量论文中发现模式往往是一个巨大的负担,这已成为日常科研工作中最耗时的部分。然而,研究工作最大的瓶颈往往不是研究人员需要阅读的成堆论文和书籍来获得所需答案,而是知道应该提出什么样的正确问题。
AutoDiscovery的前身是AutoDS,现在已集成到AstaLabs中,这是艾伦人工智能研究院开发的科学AI生态系统Asta的一部分,该系统能够分析、总结和搜索超过1.08亿篇学术摘要和1200万篇全文论文。
与传统的从问题开始的研究方式不同,这项功能从数据出发,通过生成自然语言假设来自主提出问题,提出实验计划,编写Python代码并执行,解释统计结果,并利用这些结果生成新的假设。
本质上,它就像一个独立的研究员,能够对结构化数据集中的少数或数百篇论文进行分支统计分析并进行探索。据艾伦人工智能研究院介绍,该系统可以进行快速分析或通宵运行,它将提供完整的可能研究方向列表,每个方向都是可重现的,便于进一步调查。
瑞典癌症研究所免疫肿瘤学中心主任、肿瘤内科医生凯利·保尔森博士表示:"AutoDiscovery揭示可能隐藏在显而易见处的发现的能力在癌症研究中尤其有价值。"
就像科学家一样,AutoDiscovery通过生成假设进行开放式探索。然后它使用该公司所谓的贝叶斯惊喜度,这是一种衡量系统在看到证据后信念如何改变的指标。
在对论文进行实验之前,系统基于概率分布对假设是否为真持有先验信念。这种"信念"来自模型已经可以访问的一套世界知识。在检查论文结果后,模型会更新其期望和"惊喜"因子,可能是积极的(换句话说,得到了证实)或消极的(被证伪)。
惊喜因子最重要的不仅仅是惊喜本身,而是有多令人惊讶。被反驳的假设可能与被证实的假设一样有价值,特别是如果它完全颠覆了预期或重新定义了假设。
历史上完全颠覆理解的假设例子包括19世纪时人们相信"瘴气"或坏空气导致疾病。当发现传染源、具体的细菌而不是瘴气导致特定疾病时,这一观点被完全推翻并被疾病的细菌理论所取代。这一转变始于1860年代和1870年代,当时约翰·斯诺博士绘制了伦敦霍乱病例地图,证明霍乱是通过受污染的水而非坏空气传播的,从而挑战了瘴气理论。
该公司表示,这符合科学的严谨性,那些有意义地改变我们期望的结果往往比那些简单确认我们已经假设的结果更有趣。通过追求惊喜,AutoDiscovery试图趋向于意外,并尝试代表真正的发现而不是明显的模式。
然而,仅有惊喜是不够的。探索科学发现空间的广度需要智能搜索。因此,它还实现了蒙特卡罗树搜索,平衡探索新假设和优先考虑已知线索。这有助于将计算努力推向最有可能解锁更好信息的路径。
用艾伦人工智能研究院的话说,它使用贝叶斯惊喜度和蒙特卡罗树搜索与研究人员协作回答这个问题:"接下来应该调查什么?"
斯克里普斯海洋研究所海洋生态学家法比奥·法沃雷托博士说:"生成多个假设然后由用户进行彻底评估的能力极其强大。"
艾伦人工智能研究院表示,该系统通过将数据集从静态存储库转变为协作伙伴,改变了科学家与其数据之间的关系。AutoDiscovery今天作为Asta中的实验性功能提供,Asta是一个开放科学的学术智能体AI框架。
Q&A
Q1:AutoDiscovery是什么系统?
A:AutoDiscovery是艾伦人工智能研究院开发的自动化科学发现AI系统,专门帮助科研人员在面对海量数据时提出正确的研究问题。它能够分析、总结和搜索超过1.08亿篇学术摘要和1200万篇全文论文。
Q2:AutoDiscovery是如何工作的?
A:AutoDiscovery从数据出发自主提出问题,通过生成自然语言假设,提出实验计划,编写并执行Python代码,解释统计结果并生成新假设。它使用贝叶斯惊喜度和蒙特卡罗树搜索来平衡探索新假设和优先考虑已知线索。
Q3:AutoDiscovery在哪些领域有应用价值?
A:AutoDiscovery在癌症研究、海洋生态学等多个科学领域都有重要应用价值。它能够揭示隐藏在显而易见处的发现,特别是在需要处理大量科学论文和数据的研究领域,能够大大减少研究人员的工作负担。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。