让普通硬件终端也能跑AI应用,CoCoPIE提供了全新的思路 原创

AI专用硬件的全面普及还需要不短的时间,在此之前,唯一办法就是充分挖掘现有硬件终端本身的计算能力。

工欲善其事,必先利其器。有了铁轨,火车才能跑起来;有了黑白键,钢琴家才能弹奏出曼妙音符;而没有CPU,计算机就只是一个空壳。那么,跑AI应用,是否非AI芯片不可?随着智能需求普遍化,眼下主流的硬件终端是否会被全盘淘汰?

显然,要在一夜之间把全世界的所有硬件设备都换成智能设备并不现实,且不说这要付出多大的成本、周期和风险,AI芯片的产能困境也已经成为有目共睹的全球问题,眼下,AI应用要实现突破性发展,就必须突破硬件在算力、功耗、内存等方面的限制。

目前常规AI应用的实现方式是,通过设备把数据发送到云端进行运算处理,然后再把处理结果发回设备。但这样的做法仍然存在一些问题:首先,这意味着应用的运营方需要负担巨大的服务器成本和带宽成本;其次,因为要把数据传送到云端再计算,这其中就存在应用体验的时延;其三,如果在网络环境较差的区域,甚至根本无法获得AI应用能力。第四,当前用户数据安全隐私问题日益成为社会焦点,把用户数据从设备发到云上,中间会可能产生大量安全隐私的问题。

所以,AI运算的本地化仍然是绕不开的一个课题,这也是为什么众多科技公司大力投入AI专用硬件研发的原因。但如前文所说,AI专用硬件的全面普及还需要不短的时间,在此之前,唯一办法就是充分挖掘现有硬件终端本身的计算能力。

为充分挖掘主流硬件计算能力提供全新思路

成立于2020年的CoCoPIE公司为市场提供了一种全新的解题思路——即“压缩-编译协同”。如我们所知,当下AI算法的底层基于的是深度学习,模型越大获得的准确度就越高,模型一旦被压缩,准确度就会下降,这就解释了AI应用为什么对算力有着如此高的要求。

CoCoPIE认为,在有限的硬件条件下,精准度和高效能之间并非不能取得平衡点。“我们发现,AI任务在现有硬件上表现不好的重要原因是两个——一方面,现有的AI计算中有很多冗余计算,另一方面,现有的运行引擎没能充分发挥芯片的潜力。要解决这些问题,必须打通从AI任务到芯片架构之间的直通桥梁,进行压缩和编译协同设计。”CoCoPIE公司负责人李晓峰向至顶网记者解释。

让普通硬件终端也能跑AI应用,CoCoPIE提供了全新的思路CoCoPIE公司负责人 李晓峰

“压缩的过程就是把模型变小,编译就是把模型变成可以在最终芯片上执行的指令。而这个过程必须是一体化协同设计的,才能同时保持高精度、高效率和高性能。”具体来说,CoCoPIE提出了一种全新的基于模式的权重剪枝方法。基本思想是,针对不同的上层模型特性和底层芯片结构,对权重可以选取不同的模式进行剪枝。这种压缩方式本质上是一种“细粒度的结构化剪枝”,可以保证在有效减少计算量的前提下依然保证准确率不变。

据李晓峰介绍,目前该技术植入终端设备的方式有很多种。比如,可以通过与芯片公司合作,直接作为芯片AI技术栈的驱动框架;也可以和应用开发商合作,作为应用的一个模块。“作为一种软件技术,我们对AI任务的部署方式很灵活。并且,对终端设备的要求也不高,只要芯片具有矢量计算能力就行。”这意味着,目前市场大多数的主流芯片都可以满足,“当然,哪怕没有矢量计算能力,我们的技术仍然可以发挥作用,只不过能力会受到一些限制。”李晓峰补充说。

技术研发、资金支持、商业合作多点开花

凭借着“压缩编译协同设计”这一独特的技术思路,虽然CoCoPIE成立仅有一年时间,但是无论是在理论深造、软件开发、融资还是业务推广方面都已经取得了很可观的成果。

李晓峰告诉记者,过去一年中,他们的主要工作是把学术界最新的研究成果转化为具体的软件产品。而除此之外,CoCoPIE还在相关领域发表了大量论文,从AI应用优化技术、AI模型设计技术,到编译器优化技术以及底层硬件相关优化技术。令他意外的是,在论文发表之后,已经有不少企业主动寻求合作。其中包括了腾讯、滴滴、Cognizant等不同领域的公司。

从目前来看,CoCoPIE技术的应用场景和范围非常之广,可以这么说,只要有AI应用需求的地方,就有该技术的“用武之地”,无论是智能家居、智慧城市,还是智能手机,或是医疗设备。以手机上的媒体处理为例,无论是做人脸动画、拍人换脸、视频卡通化,还是对特定目标进行对象检测,这些任务都可以借助于CoCoPIE技术更轻松地实现。

为什么说是“更轻松”?这主要体现在使用效能上。看一组数据对比:使用CoCoPIE,VGG-16神经网络在移动设备Samsung Galaxy S10上比在TPU-V2上效能提升了近18倍,ResNet-50则取得了4.7倍的效能提升;在同样的Samsung Galaxy S10平台上,运行行为识别的C3D和S3D两个任务,CoCoPIE的速度比Pytorch分别提高了17倍和22倍;运行MobileNetV3, CoCoPIE的速度比TensorFlow Lite和Pytorch分别提升了近3倍和4倍;另外,对功耗测试(Qualcomm Trepn power profiler)的结果还显示,CoCoPIE与TVM相比,执行时间缩短了9倍以上,功率却仅多消耗了不到10%。

这样的成果表现,让资本市场和应用市场的嗅觉同样敏锐,短短一年,在没有商业推广的前提下,CoCoPIE已经获得了10几个客户,并且还在日前完成了数千万元人民币的融资。“应该说,CoCoPIE的发展还是很迅猛的,下一阶段会有更大的发展。”李晓峰说。

需要强调的是,李晓峰所指的“下一阶段”是更长的一段路,不会随着AI芯片的普及化而停滞。“因为CoCoPIE的技术是通用的,可以广泛地应用于各种CPU、GPU、DSP以及及AI专用芯片,如NPU、APU、TPU等等。”李晓峰解释道,“所以,AI芯片即使发展了,也还是离不开编译优化技术,我们的技术只会让AI芯片的能力进一步提升。就像通用芯片不管多便宜、性能多高,也都还需要高性能的编译器支持。”

因此,在CoCoPIE看来,随着芯片类型越多、能力越强,对软件优化技术的需求也会越大,而这就意味着,CoCoPIE未来的市场空间也会越来越大。“我们会持续探索这个技术栈相关的先进技术,并通过高校研究不断为自己输入新鲜的技术能力。”李晓峰说。

一边筑高技术壁垒,一边拓宽生态合作

CoCoPIE的创始团队为来自美国东北大学、北卡罗来纳州立大学及威廉玛丽学院的人工智能方向的三位知名教授,以及来自于谷歌,阿里巴巴达摩院,英特尔等国际科技公司的资深架构师。因此,从理论研究到技术研发都有着完善的知识和经验体系。

对于李晓峰个人来说,曾经在英特尔工作了14年,从超级计算到服务器计算,又到个人机计算以及后来的移动计算,亲身见证了端侧计算的不断扩展。而在此后的工作中,他仍然一直围绕着端侧智能设备相关技术不断深耕,不断拓展思路。加入CoCoPIE之前,李晓峰曾历任华米美国分公司总经理、华为技术副总裁、OPPO软件首席架构师。

“这些经验让我对端侧设备智能化的发展趋势和构建方式都有了更加深入的理解,同时也影响着我在CoCoPIE的工作开展。比如我们在创新技术的产品转化方面,我会更侧重智能技术的泛在化普及;在业务发展战略方面,则更侧重与合作伙伴合作共赢的生态建设。”李晓峰强调。

而对于未来,他的目标和思路也已经非常清晰。短期来看,CoCoPIE将在明年把硅谷和成都的团队完善和建立起来;长期来看,一方面是继续深耕技术,另一方面,则是向外构建生态。

“从技术角度出发,CoCoPIE不仅要继续探索前沿技术,筑高技术壁垒,也要不断完善整个技术产品体系,挖宽技术护城河。”李晓峰透露,在服务交付模式上,接下来CoCoPIE将提供四种交付方式。第一,为客户提供完整的工具链,通过全路径的打通,以许可证的方式实现产品交付;第二,把工具链的能力同步到云端,客户通过上云也能直接获得CoCoPIE的技术能力;第三,通过与合作伙伴的深度合作,为客户提供定制化的软硬一体化设计;第四,对常见通用模型进行优化,帮助客户实现“开箱即用”。不管是那种交付方式,核心技术是一样的,只是服务方式有所变化。

从生态角度出发,李晓峰指出,在AI生态中,CoCoPIE起到的是连接AI和硬件平台的作用,在这个角色定位上,CoCoPIE在下一阶段,还有非常重要的一个目标,就是和上下的合作伙伴一起,实现端侧AI应用的普及化,打造共赢生态。

来源:至顶网人工智能频道

0赞

好文章,需要你的鼓励

2021

10/27

10:04

分享

点赞

邮件订阅