现如今,手机地图几乎已经成了每一个人的“出行必备”。无论是自驾、搭公共交通还是骑车、步行,即使是对于路痴来说,有了手机地图,就可以得瑟地高呼“地图在手,天下我有”。
细数当下众多的手机地图APP,百度地图可以说是将AI技术与地图结合的最紧密的一款。比如通过语音交互系统,百度地图已经能够让用户在行程中轻松实现“动口不动手”;再比如通过AR步行导航,百度地图还让圆明园大水法等景点实现了原址再现,给了用户更加身临其境的感受。除此之外,在数据生产方面,百度地图中80%的数据采集环节都实现了AI化,而凭此构建的3000万POI空间图谱、700万的用户兴趣图谱等丰富的数据,也将进一步为用户提供更加贴心的位置信息服务。
在这基础上,上周,百度地图又推出了一个“惊艳”功能——地图语音包定制。这是全球首个地图语音定制产品,和传统复杂的语音包制作不同,借此,用户只需要在APP上录制20句话,用20分钟左右就可以生成一个专属的完整语音包。
百度地图事业部总经理李莹在发布会上表示,过去,要制作一个大库的通用语音包,录制的语音量是上万句,制作周期仅半年。而要制作一个定制的语音包,还需要在大库基础上录制1000-2000句语音,在专业录音棚里录制约两周时间,最终输出成型的语音包需要两个月左右。
百度地图事业部总经理李莹
相比较而言,百度地图的这一语音定制流程就显得简单的不能再简单了:用户只需要打开百度地图唤醒“小度小度”,说出“录制我的语音”的指令,或者点击首页的“出行助手”后进入“语音定制”,就可以根据提示进行语音定制。在安静的环境中,只要跟着百度地图的指引,念出卡通和影视台词等充满趣味性的录制文本,等待20分钟左右,就能拥有一个自己专属的语音包,并在百度地图的景区智能语音导览、智能语音交互、导航等全部场景使用。此外,录制的个人语音包还可以分享给亲朋好友使用。
“在发布实验版本时,我就第一时间让我女儿录制了一个语音包,声音还原度真的很高。现在我已经把它设置为默认语音包,有时候我会故意调戏小度‘小度小度,你爱我吗?’,这时,小度就会用我女儿的声音回答‘天灵灵,地灵灵,爱你到天明’,这样的感觉真的很暖。”
事实上,儿童音录制是十分困难的,常常会出现发音不清晰、断句不准确,甚至是普通话不标准的情况,而百度地图语音定制功能却克服了这类问题,实现了儿童音的完美合成。
在这些优秀表现的背后,是百度大脑语音技术的赋能,它不仅让地图语音包制作实现了从数月缩短到数十分钟,同时还重新定义了语音包的生产模式。百度语音首席架构师贾磊在发布会上介绍:“百度地图语音定制功能基于百度独创的说话人韵律迁移技术Meitron,其特点主要体现在发音人音色转换,多情感朗读和韵律风格迁移三个方面,从而让个性化语音合成的定制门槛大大降低,相信百度语音技术在AI时代拥有无限可能”。
百度语音首席架构师贾磊
值得一提的是,对于最近颇受关注的数据安全问题,百度地图也明确声明,对于语音定制服务的权限获取百度地图将仅用作语音包录制,不做他用。百度地图未经用户的授权同意,不会将用户的语音包共享给任何人。
李莹介绍,百度地图工程师把语音定制功能称为“百雀灵”,希望用这一自然界中具有千万美妙声音的生物,寓意百度地图将让成百上万的用户,都能够发挥自己的特色,录制自己、或者爱人、亲人的语音包,让爱陪伴左右。“语音定制功能是AI赋能百度地图的又一力作,我们希望这一次语音技术与百度地图的融合,能够释放科技力量,让每个人都感受到科技进步带来的改变和情怀。”
好文章,需要你的鼓励
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。