近期火爆的ChatGPT让公众对于人工智能有了更加直观的认识,虽然ChatGPT能够依靠强化学习实现自我监督式训练,从而具备更强的智能,但是数据标注依然是提升AI训练效率和准确度的重要手段。
与此同时,数据标注行业也面临一系列挑战:标注难度和标注质量要求提升,多场景和复杂化的需求对标注平台和工具要求越来越高;数据量爆发,人力标注无法实现规模化,给标注产能带来挑战。
作为一家专注于全场景AI数据标注能力的企业,星尘数据近日推出了Rosetta 3.0平台,解决标注行业的痛点。
星尘数据创始人、CEO章磊告诉记者,星尘数据从创立之初就确立了三个目标:首先,通过自动化标注提高标注效率;其次,通过提供数据策略专家服务,为客户创造更多的价值;最后,通过数据闭环让客模型训练效果更好,数据标注量更少,提高标注性价比。
让数据标注行业“脱胎换骨”
传统的数据标注流程中,算法人员制定数据标注规则,标注公司消化后再提供给标注团队。然而,执行过程中,算法的思路并不能一次性达到最优化;其次,数据标注人员仅仅是一个“干活儿的”角色,并不能帮助更好地迭代算法效果。
章磊表示,传统数据标注人力外包随意性高,数据量大的时候容易出错,返工率非常高,不能保证工时。而且他们没有相应的管理工具,存在数据批次多、脏数据多、清洗后有效数据少、同类型数据重复标注的问题。
针对这些问题,星尘数据提供自主专业的标注工具,依托专业的算法和训练模型加速标注过程,而且完善了客户数据生产力,保证服务的体验。
“我们的目的不是要解决100%的数据标注,而是解决行业前沿的大规模数据标注,这也是那些具有付费能力的大客户最大的痛点。”章磊说。
一个典型的例子是,客户在感知算法中因为没有做运动补偿,需要对相机信号和雷达信号逐一进行人工确认。星尘数据的数据策略专家在和算法沟通后,提出通过2DOD算法和3D映射联合计算,通过IoU筛选候选样本的方案,并将多个算法直接以人机交互的方式嵌入标注流程中,节省了50%以上的标注时间。
在章磊看来,星尘数据现在所作的工作就是让大家数据标注的印象会从一个“门外汉就能够做这件事情”能够变成“非常专业的人在做这个事情”。因为回到本质上来说,AI就是不断地在学习人的经验和知识。
数据闭环,Autolabeling让标注更AI
Rosetta平台是星尘数据打造的行业内自动化水平最高的标注平台,其在算法种类、算法效率、算法接入能力、算法交互能力等方面均具领先优势。
最新的Rosetta 3.0的通用性和专业性更强,处理能力、算法的接入接出和反馈能力更强,数据也更安全。比如Rosetta 3.0新增20+自研算法,增强数据闭环支持能力,打通DataOps和MLOps链路。
章磊表示,全流程闭环式AI数据系统将成为主流。星尘数据要做的是帮助客户在前沿算法研究方面进行大规模、快速生产结构化数据。
在一个完整的数据闭环训练中,客户可使用星尘提供的离线数据包进行基础版模型训练,星尘数据标注系统通过API与客户算法系统进行交互,动态感知客户模型效果,基于模型各版本迭代的效果,动态检索不确定性最大、信息量最大、损失最大、稀疏场景等有效数据。几次迭代后,不仅沉淀了有效数据,还节省了数据成本。同时,星尘数据还可以在海量数据中找到真正有价值的数据帮助客户训练模型,并利用自有数据集评测模型效果。
以ChatGPT语言模型为例,通过星尘数据的Rosetta 3.0数据标注系统,客户可以将模型快速接入系统,通过API实时将结果显示在标注平台上,星尘专属基地的NLP标注员可以快速给出反馈。同时,奖励强化模型实时接收到反馈并进行训练,可以实现模型的高效训练并及时发现难例和缺陷。该解决方案目前已进入与某深度客户的POC测试环节。
据悉,Rosetta 3.0既可以通过标准化SaaS服务进行获取,也可以实现离线私有部署。未来,星尘数据会将产品进行开源。“AI是一个生态问题,而借助开源,它可以定制化,集思广益,这会激发出更强的生命力。”章磊解释说。
定位“数据策略专家”
星尘数据开发了上百种辅助标注算法,为预标注、标注、质检环节提供多样化的算法辅助。以激光雷达点云标注为例,平台在渲染、自动贴合、自动映射、连续补间等功能上具备行业领先的性能,具备无延时切帧特点。
算法的加入让平台自动化水平逐年提升,目前平台自动化率达到60%。高自动化率让标注效率和标注产能显著提升,相比其他平台,标注员在Rosetta平台能标得更快,获得更多收入。
算法也让复杂标注需求得以解决。星尘算法团队密切关注前沿技术动向,提前做好技术储备和产品沉淀。目前平台可支持BEV、3D重建、4D融合等自动驾驶前沿算法的数据标注。
除Rosetta数据标注平台外,星尘数据还为客户提供Rosetta标注软件基础版、Rosetta标注软件高级版、Rosetta标注软件旗舰版、Rosetta App、Rosetta独立标注工具、开放平台Open API等众多产品形态,支持私有化部署和定制化软件,满足客户多样性需求。
章磊表示,未来星尘数据将专注AI数据服务,通过Autolabeling技术、数据策略专家服务和数据闭环系统服务,为全球人工智能企业特别是自动驾驶行业提供“燃料”,最终实现AI的平民化。
好文章,需要你的鼓励
Genspark推出超级智能体,将"氛围编程"概念扩展至企业工作流程,实现"氛围工作"模式。该系统采用9个大语言模型的专家混合架构,配备80多种工具和10多个数据集,通过规划-执行-观察-回溯循环运行。系统能自主处理复杂业务任务,甚至代替用户拨打电话。45天内实现3600万美元年收入,展现了自主智能体平台的商业可行性,挑战传统企业AI架构理念。
北京大学和百度VIS联合研发的MV-AR技术,首次让AI学会像人类一样逐步观察物体,通过自回归方式生成多视角一致图像。该技术解决了传统方法在处理大视角差异时的一致性问题,支持文字、图像、形状等多种输入,在3D内容创作、机器人视觉等领域具有广阔应用前景。
医疗保健已成为AI应用的热点领域,在疾病诊断、康复监测和新药开发方面证明了其价值。然而,行业仍面临临床人员短缺、人口老龄化等挑战。AI智能体作为下一波AI变革浪潮,相比现有AI工具,能够执行更复杂的任务并减少人工干预。它们不仅能被动提供信息,还能主动采取行动,如自动分诊调度、辅助临床决策、远程患者监护等,有望在十年内彻底改变医疗服务的提供、管理和体验方式。
Microsoft和Georgia Tech研究团队开发了SlimMoE技术,能将超大AI模型压缩到原来的10-20%大小而性能基本不变。该技术采用多阶段渐进式压缩,保留所有专家模块但精简内部结构,成功将419亿参数的模型压缩为76亿和38亿参数版本,让原本需要企业级硬件的AI能力可在普通电脑上运行,大大降低了AI技术使用门槛。