大家好,我们又见面了。
在商汤2024年年会上,汤晓鸥数字人现身,来了一场跨越时空的重逢。

按照以往习惯,每年汤老师都会说上一段脱口秀,已经成为商汤年会保留节目。
熟悉汤老师演讲都知道,他是被人工智能事业耽误的“脱口秀大师”,如今以数字人的形象,再度用幽默的方式与我们相见。

除了被他的幽默感染,不少人还被逼真的效果所惊艳,堪称“年会最佳彩蛋”。

并由此引发大家对汤教授的怀念。


不讲企业经营,也不讲公司管理。还是老规矩,唠两句嗑。
每年汤晓鸥演讲的开场都是“我们先来复习一下去年的演讲”,今年数字人也不例外。
按照商汤CEO徐立的话说,这是特有的汤氏套娃演讲风格。
复习之前,他被cue到“弹钢琴”,结果他说:今年没接到通知啊。
到了正儿八经的复习环节,结果已经有人会抢答了。(Doge)

首先他说道:自己的推荐是有一点前瞻性的。嗯,确实是这样的。
比如《波西米亚狂想曲》第二年就斩获奥斯卡;还有“人类文明的起点是一根愈合的大腿骨”结果被引用到《流浪地球2》中李雪健老师拯救地球去了;最后还是聊到了他多次提及的“大兄弟”——宫崎骏,重出江湖拍了部《苍鹭与少年》……
他感叹像宫崎骏这样的大师创作并不容易,“人生中最重要的事就是很麻烦的”,对此他也深有体会。
比如徐立每次深夜找他要聊聊的时候,他都有这样的感觉。对此他的解决方案是:
既然解决不了麻烦的问题,那就要解决麻烦的人。所以索性不接他的电话。

后来麻烦的人越来越多,他就直接选择关机。
之后,他提及了最近上映的《热辣滚烫》、东北取材电视剧《漫长的季节》,并借着《漫长的季节》结尾桥段“火车在天地里往前开”,谈到商汤也坐着新洲楼下小火车,在AI这条路上往前开。
你看要不说咱们有前瞻性呢,小火车在2021年就备好了,就等着《漫长的季节》火一把呢。

谈到今年春晚最幽默的新疆人小尼,他作为东北人不服气,于是推荐了一部小品《吃面条》。并介绍了这背后的花絮,正是因为编导最后开播前确定让演员上场,才有了春节第一部小品。
借此就来到了他以往多次提及“原创”这件事。不得不说,这很汤式风格。
坚持原创这件事,是留给有勇气的人做的;而真正支持创新的人,是有勇气担责的。
也因为这样的坚持,才有了喜剧事业蓬勃发展,才有了很多优秀的喜剧工作者。

赵本山、赵丽蓉、冯巩和我。
(传下去,这是四大喜剧天王)
最后他谈到以前的喜剧之所以那么好看,是因为时间的沉淀才成为经典。也许前路一片迷雾,而他们只是一群选择出发,并坚信赶路的人。

还是一样的引经据典,还是一样的汤式风格,这样一段不足十分钟的数字人演讲已经让人感怀。
AI的高级意义。
动容的同时,也着实被技术细节惊艳到了。比如中场汤老师还喝了一次水。

效果这么逆天吗?其他家都是正脸,这个低头和手部动作都挺自然的。

真实世界的汤晓鸥老师已经与我们告别。这一次特殊演讲的开篇,就提到让汤老师“跨越次元”的,是商汤如影数字人技术。
最早在去年四月,商汤发布“日日新”大模型体系,如影(SenseAvatar)首次亮相。

据了解,仅需要5分钟真人视频素材,如影就可以生成出动作声音自然、口型准确、多语种精通的数字人分身。

3个月后,商汤“日日新”大模型体系全面升级,如影也进化到了2.0版本。
语言方面,如影2.0打造的数字人将英语、日语、西班牙、阿拉伯语等多语种的精准度提升30%以上,而且口型和语音匹配得更加自然。
生成效果方面,如影2.0支持实现影级4K高清视频的输出,成片质感再度提升。

同时也带来了新玩法,用户可通过输入提示词自动生成与描述匹配的专属数字人形象,还是可以实现数字人歌唱功能的那种。
当汤晓鸥数字人现身为大家表演脱口秀的那一刻,其自然逼真的表现效果让不少网友为之震惊,直呼这就是《流浪地球2》照进现实。
这一场景,就如电影中,科学家图恒宇通过量子计算机“复活”了其因车祸去世的女儿:


其实,类似案例如今正在更为频繁地照进现实。
比如,音乐人包小柏同样依靠AI技术,“复活”了女儿。
2021年包小柏的女儿因罕见疾病去世,年仅22岁。经历失去爱女的悲痛后,包小柏决心攻读博士开始钻研AI技术,期望能在虚拟世界中保存女儿的存在。
经过反复探索,包小柏如愿复刻出了“数字女儿”,在包小柏妻子生日当天,“女儿”还为妈妈唱了一首生日歌,为这个家庭带来了些许慰藉。
B站up主吴伍六,前段时间用AI工具生成了奶奶的虚拟数字人,也引起了不小关注。
只见视频中,数字人“奶奶”讲着流利的湖北的方言与up主对话。
如奶奶生前一样,嘱托其父亲“别喝酒,要节约,别打牌”:

事实上,自生成式AI技术兴起以来,一直有人在探索用AI“复活”亲人这种方式来寄托思念。
比如在三年前,当时最先进的对话系统,还是由GPT-3驱动。一位因未婚妻离世而备受折磨的青年约书亚,就决定用技术“复活”亡妻。
根据程序设定, “她”和人类一样有着生老病死,每说一句话,寿命就减少一点。
当“她”只剩20%寿命后,会开始胡言乱语。当系统寿命耗尽到0%,虚拟人的生命也走向终结。

如今,随着技术发展逐渐成熟,远去之人的身影已经可以做到具象化。说话风格、语音语调、还有外在形象也都能完整地保留。
这段时间,视频生成的进展如火如荼。像阿里就发布了个由音频驱动的肖像视频生成框架——EMO。
输入单张参考图像,以及一段音频(说话、唱歌、rap均可),就能生成表情生动的AI视频。
于是就有人生成哥哥张国荣,为大家带来一首陈奕迅粤语版的《无条件》。
或许之后随着技术逐渐进化,人类的思念也将有实实在在的归处。
最后,没想到还能再以这种方式见到汤晓鸥教授。感念!
好文章,需要你的鼓励
随着沃尔玛电商部门年化GMV突破1000亿美元,AI驱动的商务正在加速发展。Onton获得由Footwork领投的种子轮融资,定位为电商决策的起点。该平台通过神经符号引擎解决传统电商搜索痛点,在家居装饰领域快速扩张,月活用户从5万增长至100万。沃尔玛和好市多等零售巨头已在运用AI重塑购物体验,消费者期望正在发生根本性转变。
斯科尔科技学院联合俄罗斯多家研究机构开发出革命性的多语言AI虚假信息检测技术。该研究构建了覆盖14种语言的大型数据集PsiloQA,通过"诱导AI说谎"的创新方法自动生成训练样本,成本仅为传统人工标注的数十分之一。实验证明多语言训练的检测模型性能显著优于单语言模型,为全球AI可信度监督提供了实用解决方案。
卫星连接领域领军企业星链与BICS达成战略合作,指定Proximus Global为其在欧洲直连手机卫星服务的首选IPX提供商。该合作将使星链利用现有IPX网络连接移动运营商,并为能够向智能手机提供宽带服务的下一代网络铺平道路。星链直连手机服务拥有超过650颗低轨卫星,可在移动信号盲区提供数据、语音、视频和消息服务,连接五大洲超800万用户。
NVIDIA研究团队发现,训练机器人最有效的方法竟然是最简单的:直接用普通文字告诉机器人该做什么,而不需要复杂的编码系统。他们开发的VLA-0系统在标准测试中超越了所有复杂方法,平均成功率达94.7%,在真实机器人测试中也比预训练系统高出12.5个百分点。这项发现挑战了"越复杂越好"的传统观念,可能加速智能家用机器人的普及。