人工智能技术生成内容(AIGC)的冲击力有多大?
当Elon Musk创立的OpenAI基金会孵化的最新AI聊天机器人ChatGPT平台以其强大的写作和对话能力席卷了网络世界。ChatGPT对问题的周到和全面(即使不准确)的回答震惊了包括学术界和科技行业在内的用户。让搜索巨头谷歌CEO都惊吓一跳,感受到了威胁。
这种威胁上一次是什么时候?今日头条对传统新闻的冲击,是当电商头部企业还在盯着京东和拼多多的时候,谁能想到颠覆电商行业的是抖音、快手等视频流选手。
再早就是大家熟知的把新技术藏着掖着的交卷相机被数据相机摧枯拉朽的干掉,到如日中天的诺基亚手机面对苹果新系统冲击的轰然倒塌。
知名技术投资者Box的首席执行官Aaron Levie分享了自己的思考:“当一项新技术让你的大脑思考产生了不可名状的感觉,新的时代要到来。早期的谷歌、Firefox、AWS、iPhone都做到了。ChatGPT给人们这种感觉。”
清华大学计算机科学与技术系长聘副教授黄民烈在《黄大年茶思屋》分享观点认为,未来ChatGPT会颠覆现有搜索模式,“ChatGPT会干掉列表,未来搜索不会出现那么多的页面,只需要1、2个页面即可,对谷歌等现有的搜索广告模式会造成巨大冲击。”
如果从根源上看,AIGC的技术具备不断进化的能力,是能够让人的能量解放出来,而通过算力资源解决了数字世界“熵”的问题。
就像宇宙、生物还是人类世界一样,“熵增原理”告诉我们,物理世界的运动只会越来越混乱、无序,熵只会越来越大。熵增是一个不可逆过程。也就是说所有的存在都是“不确定”才是常态,“确定”才是非常态。数字世界面临同样的问题,数字世界只会越来越混乱。AIGC可以自主的注入能量来抵抗“无序”。
奥地利著名物理学家薛定谔根据量子力学中微观粒子运动状态总结认为“自然万物都是趋向于从有序到无序。” 同样,按照薛定谔的发现理论,对于自然万物而言,要抵抗“无序”,就需要注入能量;对于社会发展而言,要抵抗“不确定”,同样需要注入能量。
大家知道早在60年前,“人工智能”提出到发展曾经历了两次低谷,这两次低谷的原因一方面受质于人工智能三个因素,算力、算法和数据的制约。一方面受制于ICT的发展,没有实现数据的互联互通,人工智能就如同无源之水。而伴随ICT的技术发展,云计算、移动互联、大数据等技术也早已进入蓬勃式发展。在加上5G、物联网的发展,数据的海量增长,让人工智能再一次走进人们的视野。特别是近十年,人工智能从算法到应用的一次次突破和发展,IDC发布的2022年V2版IDC《全球人工智能支出指南》指出 “目前人工智能在各行业场景下已有成熟应用。AI通过深度学习以及计算机视觉、图像识别等技术,完成自主判断和行为学习,从而解决各种复杂的任务,为行业的智能化转型奠定重要基础。”
AIGC的出现,实现了数字世界的“无序”到“有序”,同时对于数字世界,数据的产生是无限的,基于数据的驱动力目前来看可以说是取之不尽用之不竭的。所以AIGC可以通过利用好数据,让生产效率大幅度提升。
诺亚方舟实验室语音语义首席科学家刘群在《黄大年茶思屋》 对话中,表示ChatGPT为代表AIGC可以在垂直领域发挥重大作用。当数据足够大,AIGC表现的就会足够好。“比如机器翻译,我们发现中医领域的翻译就非常准确,因为中医领域数据即聚焦又足够多。”
我们不能确定AI技术发展趋势,但是我们能确定的是大家对于数据价值的需求越来越大。
我们不能确定未来AI发展会不会替代人类,但是我们能确定的是驱动AI需要海量的数据,并对这些数据进行有序管理。
面对不确定的数字世界和不确定的技术创新趋势,如何才能让无限的数据去驱动数字经济的发展,唯有融合发展,不断试错,不断开放,才能释放生产力,让海量数据变得有序流动,更好的挖掘其中的价值。
当然与其他人工智能工具一样,在细节上包括ChatGPT在内的AIGC工具有可能破坏创意产业,使偏见永久化并传播错误信息。但是瑕不掩疵,这不正是会产生大量的商业活动和市场机会吗?一个几乎可以完成自然语言处理的大部分任务,如面向问题的搜索、阅读理解、语义推理、机器翻译、文章生成和自动问答等。这样一个不断进化的工具不值得期待吗?
最后记住科幻小说作家艾萨克·阿西莫夫为机器人设定的三个机器人定律:
第一定律:机器人不得伤害人类,或允许人类受到伤害;
第二定律:机器人必须服从人类的命令,除非命令与第一定律相冲突;
第三定律:机器人可以在不违反第一或第二定律的情况下保护自己。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。