“听见”更好的世界，StyleTTS端到端合成框架再创搜狗语音新突破-科技圈

随着社会进步和技术创新的日益加快，“黑科技”的产业运用持续加速，对人们生活的影响与改变也不断加深。

近期，业内领先的搜狗AI语音合成再突破，创新提出“StyleTTS端到端合成框架”，将语音合成技术再次向前推进一步，在准确传递信息之外，更重视个性化及情感表达，让合成的语音更具表现力，更“逼真”。搜狗联合搜狐新闻客户端于5月推出的演员柳岩同款明星“数字人”就是基于该技术的支持，实现了无缝切换河南、湖南、四川、陕西、东北等多种方言的能力。目前，该技术也为腾讯QQ浏览器“小说AI听书”功能提供支持，助力其实现了听书、听小说的全新升级。

搜狗语音AI业内领先，帮助“听见”更好世界

作为机器的“嘴巴”，语音合成已经被广泛应用于新闻播报、小说阅读、地图导航、人机交互等诸多场景中。从2010年以前经典的统计机器学习方法，到DNN/LSTM为代表的深度神经网络，再到Tacotron/FastSpeech/Durian等具有更强建模能力的端到端模型，结合神经声码器的突破，语音合成技术的发展正在从“稳定可懂”迭代到“更高表现力和逼真度，甚至媲美真人录音的水平”。

搜狗AI语音合成有着雄厚的技术积累，2018年曾获得Blizzard Challenge语音合成挑战赛停顿和可懂两项子任务第一名，2019年推出首个真人变声功能实现“任意说话人声音(源)向指定说话人声音(目标)的实时变换”，展现了搜狗在语音表征学习、语音合成等领域的多个关键性技术突破。此外，以新华社AI合成主播“新小浩”和自有形象合成主播“雅妮”为代表的搜狗数字人也已升级至“第七代”，这些AI数字人的声音真实度、表现力已可媲美真人，展现了在多模态合成领域的行业领先性。

在此基础上，搜狗又提出了StyleTTS端到端合成框架，该框架主要包含Encoder文本特征编码、Prosody Extractor/Predictor韵律特征编码与建模、Decoder音色建模三大模块，通过不同人(声)的韵律模型和音色模型重组搭配，能够实现跨发音人的风格控制合成，并拥有抑扬顿挫的韵律节奏和丰富立体的情感表达。此外，模型还加入说话人特征编码、语种特征编码以及GAN对抗学习等经典方法，进一步提升建模能力。相较而言，传统语音合成技术的重点在于“信息的正确传递”，而搜狗AI语音合成技术除了正确传递信息，更重视个性化与情感共鸣，合成效果也具有更高的自然度、辨识度，同时还能实现对语音转换的风格、口音、情感等进行灵活选择与控制，从而满足不同场景的需求。

（图：搜狗StyleTTS结构图）

以对腾讯QQ浏览器“AI听书”的支持为例，区别于其他机器合成声音的机械式发音，搜狗AI合成语音节奏更分明、情绪更自然，能够更好的解放双眼，而除了堪比真人的高保真音色，支持“方言语音”、“动漫语音”等的选择，在读书过程中，用户还可以根据场景和心情进行播单设置、语速调节等个性化操作，这些都能够提供更好的使用体验，帮助用户“听见”更好的世界。

声音+产业构建，前瞻“布局”未来生活

“声音+”市场呈爆发式增长，已步入千亿量级市场。数据显示，在阅读领域，“看”已不是阅读的唯一方式，十个人当中就超过两个人在听书；在音频领域，有声书实现了从贡献流量到商业变现的路径打通，正在成长为喜马拉雅FM等各大音频平台的支撑或主流业务；在智能硬件领域，仅智能音箱一项，未来五年销量将突破3亿台超过PC规模……未来10 年，“声音+”整合产业规模将达到万亿美金级别。

随着智能社会的到来，声音作为最自然、最便利的人机交互方式，上接互联网、下接物联网、中间连接人工智能，既是出口也是入口，而作为“声音+”产业的基础设施之一，语音合成孕育着一个巨大的蓝海市场。

对此，搜狗已经进行前瞻性布局和产业化落地。在AI语音合成技术方面，围绕“自然交互+知识计算”这一AI理念，搜狗不断加大投入构建技术“护城河”，持续累积领先优势；在创新性平台方面，搜狗打造了“搜狗声咖”、“搜狗AI开放平台”等，基于语音技术提供语音识别、语音合成、语义理解、同声传译等AI服务；在产业落地方面，搜狗不仅积极推动与清华天工研究院等学术机构，与畅游、千龙网、学而思等商业机构，乃至于与黄子韬、梁宁等明星和意见领袖等的合作，运用了搜狗语音技术的搜狗AI合成主播也被广泛使用于传媒、法律、金融等各行各业。

随着时代发展与科技进步，智能语音将会变得越来越普及，得益于搜狗领先的人工智能技术，以及在语言领域、声音领域的强大积累，搜狗语音能够提供一整套科学、高效的“AI语音解决方案”，为人赋能，帮助人们更好的进行“有声创作”、帮助各种机构更好的提供“有声服务”，从根本上推动“声音产业”和“人工智能产业”的发展，从这个意义上来说，其未来发展具有广阔的空间。

免责声明：本站部分作品来源于互联网，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议，更不为其版权负责。如有对本站内容有任何问题，请联系我们邮箱: kejiquan@vip.qq.com 会在第一时间处理。丨本文信息：科技圈 » “听见”更好的世界，StyleTTS端到端合成框架再创搜狗语音新突破

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

“听见”更好的世界，StyleTTS端到端合成框架再创搜狗语音新突破

相关推荐

官方视频号

热门内容

美图一览

日历

内容归档