高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感( 二 )


高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
文章图片

腾讯 PCG AI 交互部相关负责人向机器之心表示 , 在录制音库时 , 会专门加入一些东北方言文本 , 发音人按照方言朗读 。 训练 StyleTTS 声学模型时使用无监督学习帧级 VAE 对韵律进行帧级表征 , 实现说话人音色与韵律解耦 , 而与口音相关信息主要保留在韵律模型部分 。 在东北女声上 , 使用方言、普通话不同数据对韵律部分进行对抗训练 , 加强韵律模型对口音的学习 。
除了不同风格的音色以及方言 , QQ 浏览器运用的 StyleTTS 端到端合成框架支持通过不同人 (声) 的韵律模型和音色模型重组搭配 , 能够实现跨发音人的风格控制合成 , 并拥有抑扬顿挫的韵律节奏和丰富立体的情感表达 , 这对于语音合成来说是非常大的突破 。 此外 , 模型还加入说话人特征编码、语种特征编码等经典方法 , 进一步提升建模能力 。 未来 , 利用 StyleTTS 框架优势 , 可以让同一人学习并具备多种风格和语种 , 就能给用户带来更多选择 。
生成语音中的韵律、表现力等由声学模型决定 , 而清晰度则由声码器决定 , 声码器限制了最终合成语音的音质 , 同时也是整个语音合成模型的计算瓶颈 。 语音阅读主要在移动端 , 不仅对音质有高要求 , 同时也对性能提出很大挑战 。 StyleTTS 端到端合成框架采用 Multi-band MelGAN 分频带建模 , 可以在较短时间内合成较好的音频 。 针对移动端做了定制优化 , 在保证音频质量没有明显下降的情况下 , 实现合成速度数倍提升 。
关于语音合成在情感表达准确度的分辨 , 目前业内主要还是靠人工主观测听 , 通过 MOS 评分来判断 。 为此 , QQ 浏览器正在联合腾讯 PCG AI 交互部等多方建立一套更加细致的音色生产和评分机制 , 从场景、风格、语速、年龄、语调、音质等多个维度进行详细评分 , 综合评价每一个音色的品质 。
QQ 浏览器的月活跃用户如今达到 4.45 亿 , 并且将免费小说作为一级入口放在了底部菜单栏 , 让用户打开浏览器就能够找到小说阅读的界面 , 足可见小说在其 “内容 + 服务的综合信息平台” 定位中的重要性 。 免费小说为 QQ 浏览器带来增量的同时 , 也让更多的优质 IP 得到了更大范围的推广 。 而 “听书” 为读者提供了另一种阅读方式 , 在增加了用户粘性的同时 , 也将吸引全新的读者 。 为此 , QQ 浏览器也在 “听书” 模式上进行不断地尝试 , 从而为读者提供更好的阅读体验 , StyleTTS 的应用则进一步满足了 “听书” 的个性化需求 。
语音合成成本降低 , 探索阅读新玩法
在刚刚过去的国际盲人节 , QQ 浏览器免费小说 “听书” 功能更新 , 推出叶非夜、公子衍、青衫取醉三位阅文作家的 AI 音色包 , 并上线 “朗读官” 频道 。 名人更具有影响力和号召力 , 因此容易被选择录制音色包 , 而 QQ 浏览器选择了三位作者 , 可以看出 QQ 浏览器在数字阅读方面积极探索玩法持续创新的决心 , 听作者读自己写的小说确实别有一番感受 。
QQ 浏览器免费小说频道拥有阅文集团上千万本小说以及上百万作者资源 , 这意味着在阅读上有足够的空间去做创新 。 如此一来 , 读者的体验感和大众化的默认语音会呈现巨大的不同 。
高保真音色媲美真人,StyleTTS为QQ浏览器「听书」语音注入情感
文章图片

传统语音合成定制需要 10 小时以上的数据录制和标注 , 对录音人和录音环境要求很高 , 从启动定制到最终交付 , 制作周期长且成本高昂 。 而如今 QQ 浏览器运用的 StyleTTS 通过海量高质量录音数据构建了一个稳定的基础模型 , 只需要每种情感少量数据 , 就能很好的还原该发音人不同情绪效果 , 节省了大量的人力、物力及时间成本 , 且得到的效果几乎与真人朗诵别无二致 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。