这是一个稍纵即逝的时刻——LinkedIn上的一则学术招聘信息,大多数人可能只是滑过,然后读到某人对做某事感到"谦卑和荣幸"。但对于我们这些关注具身机器人领域的人来说,这绝对值得停下来看看。英国林肯大学正在寻找人员开发一个"革命性的游戏化虚拟现实环境,让非专业人员通过身体演示来训练AI驱动的收获机器人,消除了复杂编程或实地训练的需求"。简而言之,目标是用机器取代田间工人——但这些机器很可能在一段时间内仍由人类操控。
这并不是一个全新概念——去年多伦多的一家杂货店雇佣了由戴VR头盔的人操控的机器人来上架商品,日本的全家便利店连锁也使用这项技术好几年了。但这一直是一个相对小众的应用案例,至少到现在为止。在未来几年,随着更多研究得到资助,这个领域的增长可能会改变工作、移民和经济流动的未来。
首先是潜在的优势。在田间采摘水果和蔬菜是困难且危险的工作,很少有人真正愿意做这件事。随着气候变化,工作只会变得更糟,美国的农场已经因为当前的移民政策而对工人短缺发出警报。杂货店上架工作危险性要小得多,但也不是什么光彩的工作,而且在搬运重箱子或重复同样的体力任务时仍有受伤的可能。
这项技术的应用远远超出了这两个用例。如果你住在纽约市,你会熟悉DoorDash和Uber Eats的送货员骑着电动自行车和滑板车在城市中穿梭。因为他们被激励尽可能快地送更多订单,他们经常在人行道或自行车道高速行驶,给自己和其他骑行者及行人创造了危险情况。他们还必须在各种恶劣天气条件下送货。
但现在想象一个由戴着头盔的司机操控的机器人来完成这些配送。配送人员仍然有工作,但不是冒着生命危险骑自行车,而是坐在温控房间的舒适椅子上,戴着VR头盔控制配送机器人。机器人可以配备内置的速度限制和其他安全功能,以及预编程规则防止操控者失控。如果其中一个机器人被公交车撞了,这对等待披萨的人来说是个麻烦,对拥有机器人的公司来说是个小损失。如果人类被公交车撞了,那就失去了某人的孩子、兄弟姐妹或父母。
但除了所有这些优势,还有很多劣势。首先,加拿大的杂货店雇佣了菲律宾的工人来操控他们的机器人,并按当地市场的现行工资支付他们。突然间,当地工人被取代,他们的工资被削减。那些被认为不会被离岸外包和AI取代的工作突然面临非常真实的风险。这里的最终目标是创造足够的训练数据,使AI最终能够自主运行这些机器人,从而造成更多的工作流失。
因为许多低工资工作都是由新移民完成的,这将对移民模式产生巨大影响。许多为了经济机会而离开祖国的移民会很高兴能够与家人团聚并赚钱造福他们的社区。另一方面,新移民一代在田间工作以供孩子上大学并让他们走上中产阶级道路的经典美国故事将被有效切断。
工人们也将彼此隔离,这将对劳工组织和孤独感流行病产生深远影响。如果你把所有时间都花在戴头盔工作上,你永远不会和任何人交谈,如果你想为更好的薪酬或条件争取权益,祝你好运能远程做到这一点。这种类型的工作对于那些想要全职从事的人来说也会变得越来越不稳定;大学生可能不会冒险走上纽约街头在课间送货,但可以轻松戴上头盔在业余时间完成一些配送。
我们仍处于这项技术的黎明时期,但它将在未来几年对工作产生深远影响。如果你在2030年的某个时候看到一个人在上架商品并认为这是新颖的怀旧,不要感到惊讶。
Q&A
Q1:具身机器人技术是什么?它是如何工作的?
A:具身机器人技术是指由人类通过VR头盔远程操控的机器人系统。操控者坐在舒适的环境中,通过虚拟现实设备控制机器人完成实际的物理工作,如农场收获、商店上架或外卖配送等任务。
Q2:这项技术会如何影响就业市场?
A:这项技术会产生双重影响:一方面让工人远离危险工作环境,提高安全性;另一方面可能导致工资竞争加剧,因为雇主可以雇佣世界各地成本更低的操控者,最终目标是积累数据让AI完全自主操作,可能造成更多失业。
Q3:VR操控机器人技术在哪些行业已经开始应用?
A:目前这项技术已经在多个行业开始试点应用,包括多伦多杂货店的商品上架机器人、日本全家便利店的服务机器人,以及正在研发中的农场收获机器人和外卖配送机器人等领域。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。