数据与算法、算力堪称人工智能行业“三驾马车”。其中,数据从本质上决定了人工智能的落地水平。想要充分发挥人工智能技术的潜能,深度学习模型就需要海量且涵盖图像、视频及语音在内等多种类型的训练数据进行模型训练。麦肯锡的研究报告也表明:深度学习模型对训练数据的数据量、多样性和更新速度方面提出较高要求。此外,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新。
在前瞻性需求方面,随着人工智能商业化进程的演进,新兴 AI 应用场景如智联网 AIoT、AI PaaS、产业互联网等将展现出巨大的发展潜力,并逐步促进 AI 技术和算法模型的优化和创新。因此,在创新应用场景和新型算法的带动下,具有前瞻性的训练数据产品和高定制化的训练数据服务需求将逐步成为主流。
云测数据总经理贾宇航结合实践案例指出,在人工智能数据市场中,数据服务商想要形成强劲的业务优势,就要摆脱同质化竞争,保持在模式、技术、服务等方面的不断发展:一是加强场景化数据的采集能力,换言之就是为人工智能细分场景的落地,提供更加垂直且丰富的数据,满足其长尾场景的需求;二是提升数据标注的准确性,从工具、规则、流程的开发制定,到标注人员的素质培养,不放过任何可以提升标注准确性的可能;三是充分发挥“底层技术+服务能力”的力量,具备更深刻的行业领域知识、更懂场景、更懂技术、更具行业前瞻性。
从细分结构来看,随着AI技术的不断成熟,更多的场景和行业开始嵌入使用AI技术,比如教育、法律、智能驾驶、银行金融等,这些AI行业应用场景逐渐趋于长尾和碎片化,产生了大量细分专业化的数据需求。对于人工智能应用来说,AI数据的精准度失之毫厘则差之千里,而在人工智能应用落地的过程中,AI数据精准度的差异会愈发的明显。
以云测数据为例,我们会发现其已经建立了数据产品、数据处理工具与数据服务的“三螺旋”,为智能驾驶、智慧城市、智能IOT、智慧金融等行业提供高效率、高质量、多维度、场景化的数据服务与策略,最大化发挥训练数据的价值,为人工智能场景化落地输送更多数据支撑。这种对AI数据的质量、效率、场景化方面提升的要求,才能推动数据要素有序发展及高效利用,助力企业在“百家争鸣”的智能化浪潮中迎头而上。
当前,以数据价值驱动的数字经济正成为推动社会前进的主要模式,AI数据作为新的生产要素声名渐显,它是人工智能长期发展的重要保障、技术研发的关键。8月17-18日,由“科创中国”大湾区联合体、深圳市科学技术协会指导的第四届智能制造创新高峰论坛系列活动将在深圳福田举办。其中,云测数据即将在系列活动之一的新产品新技术发布会中发布行业前沿趋势内容,为推动产业升级把脉新方向,值得期待。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。