如今的年轻人们恐怕很难想象,就在短短半个世纪之前全球还只有三大电视网络,这意味着整个国家的全部民众在每天晚上的同一时段都只能观看同样的节目。换言之,整个国家的电视观看体验是完全统一的。最终,有线电视与卫星电视为我们带来了数百个频道选项,这导致社评家们质疑我们是否进入了娱乐至死的时代,并导致社群意识的全面崩溃。当然,今天的我们实际上拥有着近乎无穷的娱乐选择,几乎整个媒体世界都呈现于我们的面前与指尖。随着AI越来越多地帮助我们解决这种无限选择的难题,也许终有一天电影、电视甚至是音乐与艺术品也能够以量产规模提供个性化内容,即按每个人的喜好进行定制。
机器学习技术正越来越多地在娱乐圈内发挥重要作用,包括帮助流媒体用户从无穷无尽的大量数字目录当中提取其可能感兴趣的内容。毕竟我们都是普通人,不可能在鼠标的反复点击之下从数以百万计的电影作品中尝试挑选出最适合自己的影片。
算法已经成为我们畅游这个巨大的娱乐仙境的数字指南。无论是连播电影推荐还是扬声器为我们挑选的歌曲播放列表,我们的选择权实际上都已经不再属于自己。
无论多么复杂,所有这些算法都受到一个关键性限制因素的影响:它们必须将我们自己的个人偏好与原本存在的内容匹配起来。
即使是最狂热的《星球大战》粉丝,其可选范围也仍然是有限的。而老电影爱好者或者超级英雄电影拥趸也存在类似的难题,只要题材有范围,其数量终究可以穷尽。
因此,艺术界正越来越多地尝试利用深度学习算法,特别是GAN(生成对抗网络)创建新颖的内容。目前的设计原型还非常原始,产生的艺术品与音乐也就是儿童手指画或者儿歌的水平。然而,也有一些技术带来了令人颇为兴奋的结果。
鉴于其呈指数级提升的实际效果,这类由AI创作引擎生成的作品逐渐拥有了能够与人类艺术家相媲美的场景真实感,其中呈现出一定程度的新颖性与创造性。也许摆脱纯粹的模仿或者随机化迹象,仅仅只是时间问题。
一旦AI系统达到了能够自由创建新颖内容的水平,那么这类算法是否可以为每一个人提供真正假货的全新娱乐节目?
这些算法不再作为共享娱乐内容的目录索引,不再努力利用文化时代下的精神内核,而是完全根据我们的心情、当前的需求与体验制作电影、音乐与艺术品。
想象一下,《星球大战》的粉丝们渴望续集的尽快推出。通过与权利人签订许可协议,以及对于粉丝群体而言最具吸引力的元素与故事情节的统计追踪,算法能够为他们创作一系列新的相关电影。与此同时,拥有其它一些兴趣点的星战粉丝则可以拥有自己版本的无数部星战续集,其中包含着完全不同的故事走向与结局。
在娱乐个性化的世界中,这一切究竟意味着什么?
换言之,像《星球大战》这样在全球范围内广受好评的作品,是否会成为我们个人的专享?
虽然根据当前版权法规定,由计算机生成的续集作品可能仍然归属于版本所有方,但电影中的具体情节设置、角色、视觉效果乃至声音都将由机器根据观众的喜好生成。这,是否会动摇创作品的归属认定?
如果我们不再共享相同的内容,而仅消费专为自身定制的内容,那么重新发布或者共享作品也就毫无必要——这样看来,版权归属是不是也就不再重要?
如果只有我们看到过个人版本的内容,那么对观看体验的分享渴望是否会让我们萌生出一种孤独感?
今天,我们已经习惯于利用晚间时段缩在自己的小屏幕前,每一位家庭成员都在观看不同的内容。那么,全面个性化内容与当前的完全个性化消费之间是否真的存在差异?
综合这一切考量因素,最有趣的问题可能是在娱乐个性化的新时代下,我们或许将永远失去体验分享这一概念。现代世界的信息超载,意味着我们将越来越多地退回至彼此孤立的小空间中,同时也将失去新闻稀缺时代全民对于国家议程的关注需求。
最后,如果我们的娱乐体验真的走上这条道路,到底是好是坏?我们会因为个性化的极致实现而感到喜悦,还是会为了再次失去经历分享的机会而感到惋惜?也许只有时间能给我们答案。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。