数据与算法、算力堪称人工智能行业“三驾马车”。其中,数据从本质上决定了人工智能的落地水平。想要充分发挥人工智能技术的潜能,深度学习模型就需要海量且涵盖图像、视频及语音在内等多种类型的训练数据进行模型训练。麦肯锡的研究报告也表明:深度学习模型对训练数据的数据量、多样性和更新速度方面提出较高要求。此外,人工智能技术要求算法模型根据潜在的应用场景变化而持续更新。
在前瞻性需求方面,随着人工智能商业化进程的演进,新兴 AI 应用场景如智联网 AIoT、AI PaaS、产业互联网等将展现出巨大的发展潜力,并逐步促进 AI 技术和算法模型的优化和创新。因此,在创新应用场景和新型算法的带动下,具有前瞻性的训练数据产品和高定制化的训练数据服务需求将逐步成为主流。
云测数据总经理贾宇航结合实践案例指出,在人工智能数据市场中,数据服务商想要形成强劲的业务优势,就要摆脱同质化竞争,保持在模式、技术、服务等方面的不断发展:一是加强场景化数据的采集能力,换言之就是为人工智能细分场景的落地,提供更加垂直且丰富的数据,满足其长尾场景的需求;二是提升数据标注的准确性,从工具、规则、流程的开发制定,到标注人员的素质培养,不放过任何可以提升标注准确性的可能;三是充分发挥“底层技术+服务能力”的力量,具备更深刻的行业领域知识、更懂场景、更懂技术、更具行业前瞻性。
从细分结构来看,随着AI技术的不断成熟,更多的场景和行业开始嵌入使用AI技术,比如教育、法律、智能驾驶、银行金融等,这些AI行业应用场景逐渐趋于长尾和碎片化,产生了大量细分专业化的数据需求。对于人工智能应用来说,AI数据的精准度失之毫厘则差之千里,而在人工智能应用落地的过程中,AI数据精准度的差异会愈发的明显。
以云测数据为例,我们会发现其已经建立了数据产品、数据处理工具与数据服务的“三螺旋”,为智能驾驶、智慧城市、智能IOT、智慧金融等行业提供高效率、高质量、多维度、场景化的数据服务与策略,最大化发挥训练数据的价值,为人工智能场景化落地输送更多数据支撑。这种对AI数据的质量、效率、场景化方面提升的要求,才能推动数据要素有序发展及高效利用,助力企业在“百家争鸣”的智能化浪潮中迎头而上。
当前,以数据价值驱动的数字经济正成为推动社会前进的主要模式,AI数据作为新的生产要素声名渐显,它是人工智能长期发展的重要保障、技术研发的关键。8月17-18日,由“科创中国”大湾区联合体、深圳市科学技术协会指导的第四届智能制造创新高峰论坛系列活动将在深圳福田举办。其中,云测数据即将在系列活动之一的新产品新技术发布会中发布行业前沿趋势内容,为推动产业升级把脉新方向,值得期待。
好文章,需要你的鼓励
卢森堡大学研究团队开发的RLDP框架首次将强化学习应用于差分隐私优化,创造性地解决了AI训练中隐私保护与模型效果的矛盾。该方法如同智能教练,能动态调整隐私保护策略,在四种语言模型上实现平均5.6%的性能提升和71%的训练时间缩短,同时增强了抗隐私攻击能力,为敏感数据的AI应用开辟了新路径。
这项由北京大学人工智能研究院完成的研究,首次从数据压缩理论角度揭示了大型语言模型存在"弹性"现象——即使经过精心安全对齐,模型仍倾向于保持预训练时的行为分布。
腾讯混元团队联合北京大学提出MixGRPO技术,通过混合ODE-SDE采样策略和滑动窗口机制,将AI图像生成训练效率提升50%-71%,同时在多项人类偏好评估指标上超越现有方法。该技术采用"从难到易"的渐进优化策略,专注于图像生成早期阶段的重点优化,并引入高阶求解器进一步加速训练过程,为AI图像生成的产业化应用提供了更高效可行的解决方案。