今天凌晨,OpenAI宣布本周内,向所有ChatGPT Plus和Team用户开放高级语音模式。
除了最初功能之外,OpenAI还新增了自定义指令、语音记忆存储、5种新声音、语速以及新增了50多种语音(最初是40种),同时支持中文模式。
怪不得昨天Sam Altman那么兴奋长文介绍智能时代的降临,原来憋了那么久的大招高级语音终于发布了。

如果你是ChatGPT付费用户,会收到一封开启高级语音模式的信。可以使用自然语音与ChatGPT交互,例如,帮我看看上海有哪些三星米其林餐厅;
国庆节我想去杭州旅游7天,你有哪些好的建议;或者去国外旅游时做同声翻译。在整个交流过程中是可以随时打断它的,就像朋友之间聊天一样。

OpenAI还特意用中文秀了一段最新的高级语音模式。
下面「AIGC开放社区」根据OpenAI发布的产品视频,为大家解读最新功能。
新增了5个声音模式,可以选择不同的声音来与你交互,包括冷静、热情、才艺、开朗等不同风格,来满足不同的场景。
例如,你希望让ChatGPT帮助你提升唱歌的水平,便可以选择才艺模式。
新增的高级语音自定义指令功能,可以进行更详细的功能设置。例如,你可以设置ChatGPT的语音模式如何输出,是快速一点还是慢一点,或者让AI如何称呼你。
基本上第一次使用都会有引导来帮助你完成所有设置,这个对于特定业务场景的用户帮助很大。
优化了语音的流畅度、对话速度和口音,在不同的业务场景ChatGPT的语音输出也会随着变化。例如,你希望它帮助你演示一个面试的场景,整个对话速度会快一些并且很严肃。
如果你希望让ChatGPT用语音帮你讲童话故事,那么语音就会变的很轻松慢一些。这个新增功能还是相当人性化的,同时进一步增强拟人化的语音。
所以,相比ChatGPT单纯的文本功能,语音模式可以进一步扩大其应用场景,尤其是在移动端玩法就变的多了。
例如,教育领域可以使用ChatGPT语音模式来帮助学生练习口语,不仅能够获得即时的反馈,还能在模仿和纠正发音的过程中,感受到与真人交流的感觉;
律师可以使用语音模式,来模拟法庭上的辩论场景,降低自己的临场压力;商务人员可以使用它模拟商业谈判,应对不同的突发事件;医疗可以打造医护助手,及时提醒病人吃药跟踪治疗等。
基本上,ChatGPT的高级语音模式符合Sam Altman描绘的智能时代特征,相信经过多个版本的迭代会向超级智能迈进。
不少网友看到语音模式终于发布了,那是相当的感慨。不过缺了Her的声音,还是不太完美。
(当初是有电影《Her》女主角的声音,这也是ChatGPT语音模式的大卖点。后来因为斯嘉丽起诉OpenAI就把这个语音模式取消了)

在你发布这些内容的时候,我已经完成了语音模式的最新功能设置。OpenAI终于兑现了他的承诺。

我使用语音模式和我的狗狗聊天,它真的做到了,相当有趣

非常棒的功能!现在ChatGPT不仅能用文本回复我们,还能用语音模式。我可以用语音来写小说或者个人传记啦。

新增的自定义指令和语音记忆功能,相当哇塞~

好文章,需要你的鼓励
Allen AI研究所联合多家顶尖机构推出SAGE智能视频分析系统,首次实现类人化的"任意时长推理"能力。该系统能根据问题复杂程度灵活调整分析策略,配备六种智能工具进行协同分析,在处理10分钟以上视频时准确率提升8.2%。研究团队创建了包含1744个真实娱乐视频问题的SAGE-Bench评估平台,并采用创新的AI生成训练数据方法,为视频AI技术的实际应用开辟了新路径。
联想推出新一代NVMe存储解决方案DE6600系列,包含全闪存DE6600F和混合存储DE6600H两款型号。该系列产品延迟低于100微秒,支持多种连接协议,2U机架可容纳24块NVMe驱动器。容量可从367TB扩展至1.798PiB全闪存或7.741PiB混合配置,适用于AI、高性能计算、实时分析等场景,并配备双活控制器和XClarity统一管理平台。
中科院团队首次系统评估了AI视觉模型在文本压缩环境下的理解能力,发现虽然AI能准确识别压缩图像中的文字,但在理解深层含义、建立关联推理方面表现不佳。研究通过VTCBench测试系统揭示了AI存在"位置偏差"等问题,为视觉文本压缩技术的改进指明方向。