当前位置:主页 > 科技 > 正文
李彦宏300句话生成20万字语音作品,百度有什么黑科技?
来源:投资者网作者:洞察网2022-04-21 18:05:00

4月21日,距离世界读书日还有两天,一本名为《智能交通》的有声书在喜马拉雅APP上线了。细心的用户发现,这本书和百度创始人、董事长兼CEO李彦宏前段时间出版的《智能交通:影响人类未来10—40年的重大变革》一书内容高度重叠,他们笃定是李彦宏亲自录制的,因为听声音这是李彦宏本人。

不过,这一次用户猜错了!这本有声书是百度技术团队使用李彦宏约300句公开语音数据,通过AIGC(AI自动生成内容)技术创作生成。不过书中的内容确实来自于此前李彦宏的作品。

《智能交通》有声书共分86集,首日上线21集,后续每天更新2集,用户在百度搜索“智能交通有声书”可直接收听。

这是国内首部系统阐述中国智能交通发展现状和前景的专著。在书中,李彦宏描述了一个不限购、不限行、无拥堵、交通事故降低90%的未来交通盛景。未来的城市智能交通,不仅要有“聪明的车”,还要有“智慧的路”。

百度正用实际行动将这一未来盛景成为现实。现在,这家以研发实力著称的企业希望用户听着”Robin“的声音,和更多人一起展望中国智能交通未来发展宏图。

四个技术难点,四种解决方案

普通人亲自录制一本接近20万字的专业书籍,按照正常语速需要不间断录制接近48个小时。这还是一次录制成功的结果,且不考虑声音状态。如果上述因素全都考虑进去,真正配音的时间可能需要更长。

这显然不是一个可行的解决方案。因此,百度决定用语音合成这本接近20万字的专业书籍。这一决定的底气来自于百度是业内唯一能提供10句话以内大规模产品级个性化语音合成服务的公司。

合成语音的前提是素材包需要足够标准,这对用户的发音标准和音频质量提出了一定要求。

此次任务的难点在于,任务的提供方只找到了李彦宏参加某访谈节目中的1小时音频内容,其中可用数据只有300句左右。这就好像是一个画像师分别用36个骨点和6个骨点去还原人脸,对技术的要求是完全不一样的。

另一个难点由于访谈节目的表达方式过于口语化,其在发音标准程度以及音频质量上,都与专业棚录数据都相差甚远。

要合成出媲美专业音库的水准,百度首先需要解决的问题是如何利用300句话,高度还原李彦宏的说话风格。

解题的关键是先要解决数据稀少的问题。因此,团队使用了百度率先研发的端到端细粒度建模技术,从300个整句的学习,进化到300句乘以每句20个字的学习方式。这样数据的样本就变得足够丰富,原有的300句数据也得以被高效利用。

同时,该技术没有发音时长约束,降低了原始的数据要求及处理难度,特别适合处理这种长短不一,口语化较多的发音场景。

李彦宏原有的300句数据中全是中文数据,因此技术团队面临的第二个问题是如何利用中文数据,合成出音色、风格一致的中、英文混合播报效果。

为此,团队在端到端细粒度建模基础上,引入了独创的解耦式建模技术。该技术可以对说话的内容、风格、音色进行区分,并独立建模;通过大数据的学习,将学习到的三个维度能力进行迁移。从而达到让一个不会说英文的人,也可以正确的读出英文。

原有数据的另一个特点是,大多是口语化表达,而技术团队需要用这样的数据样本合成出专业和叙述等其它语境下内容,保证其流畅性和自然度。

这涉及到语音合成领域一个典型问题:跨语境合成。团队的解决方案是采用百度研发的前后端联合建模技术。依托百度在语言处理的优势,结合文本处理与发音合成两大模块,联合学习了大量不同文本语境下的发音方式。

这样在原始数据未涉及过的文本语境下,也能稳定、流畅地合成出贴合语境的自然合成效果。

有声书和普通文字图书在传播形式上最大的区别是前者靠声音,后者靠文字。文字是标准化的,但发音习惯因为地域而存在较大差异。

团队需要利用发音不标准的数据,合成出高音质、高还原度,发音准确稳定的效果。

为了解决发音方式不标准问题,团队使用了百度独创的通用声码器合成技术。它结合了传统参数声码器的可控以及神经网络声码器的高还原度优势,在获得与RNN或CNN神经声码器相同还原度的情况下,还具有修复错误发音以及提升音频质量的能力,特别适用于小数据的个性化合成领域。

现在,百度可以做到只需9句话素材、5分钟等待,百度语音合成技术即可实现对用户声音的复刻,300句话即可生成媲美专业音库的音频内容。最终测试的结果表明普通用户基本无法区分李彦宏真人声音与合成声音。

百度也正在持续推动AIGC技术的应用和内容生产,未来,过去需要大量人力时间才能生产出的内容,或许能压缩到秒数级,这大大提升了创作效率。

未来的智能交通:“聪明的车”+“智慧的路”

站在历史的长河来看,交通产业正在迎来一次巨大的变革。

全球已经诞生了许多超大型城市,以北京为例子,晚上下班高峰期从西二旗打车,你可能需要排队20分钟以上。交通拥堵是城市自身扩张与发展的必然结果。

伴随着城市发展,私家车走入了千家万户,城市为此建立了大量的停车场,但如今,城市的路网资源、基础设施显然已经无法承担机动车的大规模增长了,而汽车的平均使用时间只有5%。

另一个让人觉得触目惊心的数字是根据世卫组织的数据,每年有超过100万人死于易犯错的人类驾驶员引发的车祸。

交通产业迫切需要引入新技术来提供整体效率和安全。这个技术就是自动驾驶。

是的。自动驾驶的终局并不是智能汽车,而是更大尺度的智能交通甚至是智能城市。

试想一下,工作一天的白领准备下班回家,通过智能设备唤醒一辆自动驾驶汽车,车子从停车场驶出,到了指定位置,车门自动打开,白领上车后,打开音乐准备回家。

车子一旦发动,就自动进入了庞大的交通网络,路况信息每分每秒都在发生变化。自动驾驶汽车需要收集到实时的车车、车路动态信息并交互,才可以计算出最安全也是最优化的路径。

不难发现,在实际场景中,车子需要和周围路况信息进行实时交互,这需要超强的计算网络和计算能力。换句话说,想要达到更美好的交通体验,聪明的车已经远远不够了,还需要智慧的路。

智慧的路和聪明的车协同起来,将车与车、车与路的信息相连通。车可以将拥堵信息、实时路况等,传给路侧计算单元;路侧计算单元又可以将实时更新的信号灯数据、车流量信息、绿波信号、事故信息等,传给路上行驶的汽车。

车与车、车与路之间的实时通讯,就可以避免拥堵,减少驾驶员急刹车等危险操作。只要合理控制行驶路线及速度,就能实现出行效率和安全的双重保障。

正如李彦宏所言,未来的智能交通,一定建立在智能的“车路协同”基础上,而不仅仅是“单车智能”。

在《智慧交通》一书中,李彦宏提到了由新技术、新理念、新模式构建的智能交通系统,将有望降低90%交通安全事故;10年之内,依托交通效率提升,城市拥堵问题将基本解决;随着共享无人车的普及,私家车的需求量将大幅降低。

现在,这些美好的愿望已经开始照进现实。

在湖南长沙,百度和当地公安局交警支队合作打造了87个智能路口,实现信号配时自动优化、事件感知自动推送。项目运行以来,路口通行效率提升25%以上,交通事故减少35%以上。

百度还在努力,过去1年,百度投入了221亿元研发费用,占百度核心收入比例高达23%。这几乎是中国互联网公司中投入比例最高的。

在书中的结尾,李彦宏写到交通对于人工智能来说算是一个细分领域,但对于一个国家、一个民族,却不仅仅是一个经济问题,也是一个社会问题、一个民生问题、一个跟每个人的每一天都息息相关的问题。

作为全球自动驾驶最领先的企业之一,百度正尽全力加入到这样的历史浪潮中。这是一家科技企业的责任感,也是一家企业从优秀走向卓越的必经之路。

[责任编辑:linlin]

标签: 智能交通 技术团队 解决方案 语音合成 交通事故

相关文章

评论排行
热门话题
最近更新