高保真音色媲美真人，StyleTTS为QQ浏览器「听书」语音注入情感 _韵律

机器之心专栏
机器之心编辑部

QQ 浏览器「听书」背后的 StyleTTS 让合成语音有了情感的温度。

今年 4 月， QQ 浏览器宣布「小说频道」正式变更为「免费小说」频道，这意味着阅文平台旗下的万千小说将免费供用户阅读。网络文学已浮浮沉沉二十余载，其阅读方式也随之几经改变。
与此同时，科技的发展也在革新着阅读方式，例如语音合成技术的成熟让越来越多的读者选择听小说。语音合成技术中，让声音富有情感和表现力，一直是一大难点。而 QQ 浏览器最近上线的「听书」功能中，应用腾讯 PCG AI 交互部 StyleTTS 端到端合成框架业内创新技术让合成语音有了情感的温度，高保真音色可与真人媲美。
QQ 浏览器使用的 StyleTTS 利用精心设计的语音语料库进行声学模型和文本处理模型的训练，得到的模型深度挖掘了语音语言特性，合成的语音清晰、自然、亲切、具有高表现力。现阶段 QQ 浏览器「听书」功能已上线多种音色，每个音色都有自己的风格，满足不同人群的阅读喜好。在最新的一次更新中， QQ 浏览器上线了三名作家 AI 音色包，不同寻常的玩法背后是 QQ 浏览器为 AI 合成声音进一步应用落地的尝试。
端到端声学模型，实现跨发音人的风格控制合成
其实，语音合成技术一直伴随着网文的发展，因为它的历史更加久远。 1939 年贝尔实验室利用共振峰原理制作的历史上第一台电子合成器属于语音合成的一个重要开端，直到上世纪 90 年代基于大语料库的单元挑选与波形拼接合成方法出现，可以合成高质量的自然人语音。在神经网络出现之前，波形拼接一直是语音合成的主要方式。波形拼接的基本原理就是根据输入文本的信息，从人工录制与标注的语料库中挑选合适的基元（通常为音素或音节），进行少量的调整，然后采用波形拼接的方式得到与待合成文本相对应的语音序列。但是波形拼接合成方法需要准备海量的高质量语料，而且拼出来的语音虽然能让人听懂，但很难做到自然流畅。当波形拼接合成应用在朗读小说时，其合成语音比较僵硬，机械化的电子声音并不能给听众带来良好的听觉体验。而人类读文章时有自然的换气和停顿，韵律自然，听起来才不会累。
深度神经网络克服传统的文本到语音转换系统的局限性，匹配口语中的语音顿挫和语调模式和韵律，并将语音单元合成为计算机语音。通过声学建模，即将文本特征转换为声学特征，利用半监督机器学习技术，实现了高精度、自动化的字音判别和贴近真人的语音生成效果。由此合成的语音在节奏、语调和顿挫感上都几乎和真人一样，具备人类语音一样的自然韵律和词汇清晰度。

文章图片

StyleTTS 结构图
端到端语音合成系统，由前端、声学模型和声码器三部分组成。前端主要解决基于语义理解的文本发音问题，主要包含文本正则、分词、字转音、停顿预测等；声学模型负责为语音赋予韵律，比如语速、语调、停顿、重音和情绪变化等；最后一部分声码器负责还原语音的声学特征，也就是一般所说的嗓音或声线，如振幅、频率、波长等。
为了更贴近朗读者的声音特点， QQ 浏览器此次用到的 StyleTTS 的端到端语音合成更加重视个性化与情感共鸣，合成效果也具有更高的自然度、辨识度，同时还能实现对语音转换的风格、口音、情感等进行灵活选择与控制，从而满足不同场景的需求。在前期上线的 6 个音色是精心挑选的具有小说风格同时有一定特点的声音，其中还包括东北女声。

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。