目前,世界上的每个部门都在研究人工智能(AI)。 人工智能的突破性进展将发生在健康和生命科学、网络智能、智能城市和交通领域。
但是在任何人可以执行人工智能策略之前,他们都需要一个数据策略。
AI 背后的数据策略
当我们想到数据科学家所做的绝大多数工作时,85%的工作都与数据治理、数据清理、数据标记和数据分类相关——所有这些都体现在数据策略的概念中。
因此,利用人工智能的数据能力,需要了解所需的数据集,以及它们与我们试图驱动的洞察力的相关性。
我们必须扪心自问:我们有干净而有意义的企业数据吗?还是数据中充满了空白或欺骗性数据? 我们能否利用企业外部的海量数据,比如社交媒体或零售数据?
在许多方面,我们的客户仍然处于与理解他们的数据在哪里以及识别相关的准确数据的影响程度相关的初级阶段。 一旦他们这样做了,这就为他们如何利用这些数据来推动形成竞争优势的洞察力进行了有意义的讨论。
https://mediacenter.ibm.com/media/1_e7ccy846
借助英特尔和 IBM 加速人工智能
在英特尔,我们正在成为一个以数据为中心的公司,不仅因为这是我们公司愿景的一部分,也因为我们的客户要求我们这样做。 他们决心找到一种方法来利用我们的基础设施来加速他们的人工智能战略。 我们专注于确保我们能够理解如何在硅片上优化工作负载和代码,以提高客户要求的效率和性能。
英特尔和 IBM是很好的合作伙伴,在变得更加以数据为中心方面保持紧密的联系。 IBM创建了 IBM Cloud Pak for Data (以前的 IBM Cloud Private for Data),这是一个用于多个数据集高级集成和互操作性的平台。 我们的公司致力于确保它针对英特尔 Xeon可扩展处理器进行优化,为我们的客户加速性能
满足市场上的需求
我们的许多客户在识别、发现、评估、清理和集成所需的数百个数据集时遇到了困难。 IBM Cloud Pak for Data有助于数据发现和企业级数据的快速集成,使业务能够在市场中交付与高度相关的体验、服务和产品。
英特尔的参与和贡献是有意义的,因为客户可以在基于英特尔的基础设施上快速运行 IBM Cloud Pak for Data。 IBM和英特尔之间的联盟正以前所未有的方式增强数据科学家的能力,以推动更好的洞察力和更好的业务成果。
通过使用多声音数据和 AI平台,改进如何将数据转换为见解,请查看ibm.bi z/icp4data。
英特尔的 Melvin Greer 是非盈利组织格里尔领导力与创新研究所的的创始人,该研究所的主要重点是确保这些服务不足的人群积极参与人工智能解决方案的设计和开发。
了解更多IBM 数据与AI解决方案请访问
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。