我的位置:

金准产业研究 搜狗AI交互技术深耕行业研究报告

发布人:金准数据

前言

随着AI技术的爆发和发展,智能语音技术已逐渐成为人们生活中最普遍的AI交互技术之一。

事实上,语言作为维系人与人之间情感和交际的重要纽带,一直以不同的承载形式为人们所用。例如在搜狗以语言为核心的AI技术布局中,从中文、多方言和外国语种的语音识别转写、AI同传翻译,再到个性化的语音合成和变声……在人们生活中语言应用的方方面面,都不乏搜狗的身影。

如今,搜狗作为国产AI+语音领域颠覆传统语音行业领先者之一,其AI语音技术具有高识别率、高准确率、低时延和多模态融合等优势,已广泛应用到教育、商务、旅游等多个应用场景,并已深入你我身边的千家万户中。

其中,搜狗语音识别准确率最高可达98%,语音日均请求量已达十亿级,尤其在录音笔行业,其搜狗输入法通过AI赋能,也已为市场超90%的录音笔提供接入服务。

金准产业研究专家发现,在搜狗AI技术体系一次次引领行业创新,颠覆传统行业生态的背后,是搜狗AI算法平台和深度学习平台Eva搭建起的“骨架”。而AI平台和深度学习框架的背后,强大的算力平台也助力其构筑起了语音领域的强大的竞争力和领先性。

图片1.png 

一、国内AI语音行业先锋,语音处理日请求量超十几亿次

2020年开年以来,新型冠状肺炎病毒疫情一直影响着国内市场的复工和发展,但陈伟带领的搜狗AI交互技术团队在科研领域的技术应用和研究,并没有受到影响而减缓。

搜狗在AI领域始终坚持的就是以语言为核心。搜狗AI交互事业部团队,核心解决的问题则是围绕自然交互领域,让人机交互更加自然,尤其是多模态的交互。

实际上,搜狗以语言为核心的AI技术主要布局自然交互和知识计算两大赛道。

搜狗AI主要通过语音和图像的感知、对话、翻译等来实现人与计算机之间的交互;另一方面,知识计算则更多地围绕基于海量的网络数据或已有数据,通过搜索和自然语言处理(NLP),从中抽取出真正的知识以解决问题。

2012年起,随着搜狗开始投入智能语音技术的研发,其AI团队规模已发展至将近1000人。

而在搜狗AI体系构建的背后,有一个名为Eva的搜狗深度学习平台则发挥了关键作用。

在深度神经网络建立之前,搜狗的每一项技术如语音合成和语音识别,是两个独立的方向。但在Eva构建之后,从底层的模型架构到算法设计等方面都形成了一个端到端的有机整体。

通俗地说,就是它能够将语音、图像、NLP等技术集成在一起,为研发人员统一提供深度学习模型的训练。 

由于最初的模型和算法并不复杂,搜狗一开始的深度神经网络仍然依靠CPU来运行。但随着数据的增长和算法复杂度的提升,模型训练的数据规模十分庞大,CPU早已无法满足深度神经网络的训练需求。

例如,在语音模型训练过程中,动辄需要十几万小时的数据。就算用数十块英伟达GPU来进行训练,也需要数月的时间才能完成。

因此,随着深度神经网络并行计算需求的增加,以及模型愈发复杂,搜狗从2013年后开始逐渐探索用GPU来对模型进行训练,以持续迭代线上的AI服务性能。据了解,基于英伟达强大的GPU算力支持,目前搜狗语音的日均请求量已达十亿以上。

二、英伟达GPU+超大规模推理平台,助力搜狗AI语音两大创新方向

而在搜狗强大AI交互技术过程中,英伟达T4和Tensor RT为搜狗实现算力突破,创新行业提供了强劲的技术支持。

在陈伟看来,英伟达GPU在训练和推理两个方向都提供了强大的算力支持。

一是面向线下的模型训练,需要GPU具有充分强大的算力和足够的显存,以驱动模型基于大数据的训练,如目前使用的Tesla V100和P40;二是面向线上的推理和部署,这对GPU显存和算力的需求相对较小,适合对大规模海量计算机进行部署,如Tesla P4和T4。

其中,T4 GPU专为优化和提升AI性能而打造,配备了英伟达Turning Tensor核心,能够在实现高效算力的同时,进一步支持服务器实现AI训练和推理的横向扩展。

T4 GPU具有三大性能优势。一是其能够优化可扩展服务器,能效高出CPU的50倍以上,大大降低运营成本;二是它具有多精度计算特性,可实现FP32、FP16到INT8以及INT4精度的突破性AI性能,其训练性能达到CPU的9.3倍,推理性能超36倍;三是它能够加速深度学习和机器学习的训练、推理、视频解码和虚拟桌面,并支持所有AI框架和网络模型,进一步提高大规模部署的效用。

此外,搜狗在使用GPU推理的过程中,还利用了英伟达超大规模推理平台Tensor RT,以加速深度神经网络的推理。

据金准产业研究团队了解,Tensor RT超大规模推理平台是英伟达专为全球开发者和数据科学家们开发,其配备了英伟达T4 GPU,能够加速图像、语音、翻译和推荐系统等广泛领域的神经网络。同时,它还支持加速业内各大主流的深度学习框架,例如TensorFlow、PyTorch、MXNet、Chainer和Caffe2。

好的算法和庞大的数据,一定需要好的运算平台。英伟达的GPU和AI推理平台为搜狗AI技术体系的构建,提供了批量运算或并行运算的能力,并逐渐形成良好的开发生态。

三、T4加持,语音识别准确率高达98%

如今,搜狗在自然交互和知识计算两个AI战略方向上,布局了语音、计算机视觉、对话、翻译、问答多个领域,并在搜狗分身、搜狗同传、搜狗变声等多个差异化赛道持续领跑,对算力需求进一步提升。

随着搜狗语音识别、多模态识别(语音+唇语)、OCR、机器翻译、语音合成、图像生成等应用场景和需求的扩展,它们对算力资源的需求是根据不同任务而定的。搜狗的多模态识别服务,是将语音和唇语的两个模态融合后再进行识别,而这一多模态感知的方式也使得模型对运算的要求更加复杂。

金准产业研究团队认为,AI语音领域对运算的需求只会越来越大。尽管近几年语音识别颠覆性的创新和突破越来越少,但现有技术还在持续迭代中,模型本身的学习能力也将不断加强。

与此同时,随着5G、IoT技术的推动,大数据也在急剧爆发和增长,这对于AI公司来说无疑意味着更复杂的模型和更庞大的训练数据,从而对GPU的算力提出了更高要求。

在搜狗的语音转写应用中,语音识别准确率是影响用户体验和应用的重要因素之一。

金准产业研究团队了解到,目前搜狗语音输入法在业内具有领先的中英自由说能力、远场语音识别解决方案,以及业界首创的语音修改能力。例如,搜狗语音输入法能识别日韩英法等10余种外语和粤川等10种方言,支持语音增强和个性化交互,同时其语音识别准确率最高为98%,日均语音输入调用次数突破十亿次。

实际上,搜狗语音识别准确率的提升,主要依靠算力、深度学习技术和语料数据训练。在算力方面,搜狗从2017年起开始采用英伟达Tesla P4来加速和优化语音识别模型。

早在2017年,搜狗通过P4的并行计算推理速度,将语音识别请求效率提升50%。在之后的两年时间里,随着Cuda升级至9.1以及算力的持续优化,搜狗的语音识别请求效率不断提升。2019年11月,搜狗将P4升级至T4后效率再度实现突破,提升20%。

伴随着引进T4 GPU,其语音识别峰值日均调用量也从2017年的3.2亿次,迅速增长到了2019年第三季度的8.3亿次,有效实现了对海量识别请求的处理,进一步强化了自身语音识别技术的潜力,为行业创新和变革提供了新的发展方向。

四、T4优化WaveRNN声码器,推动源技术从学界落地产业

除了语音识别之外,语音合成亦是检验语音技术公司实力的标准之一。

搜狗语音合成支持男女多风格和中英俄多语种共数十种音色,同时系统只需用户上传5分钟的音频,即可生成该说话人的音色,甚至能实现说话人的风格迁移。

技术方面,搜狗的语音合成技术基于WaveNet和WaveRNN声码器研发,但由于WaveNet运算复杂度较高,因此它最初很难实现搜狗线上实时生成语音的服务。

为了优化WaveRNN声码器,搜狗一方面在WaveRNN源技术论文的基础上进行了大量的研究工作,并为了实用化修改大量代码结构;另一方面则基于T4对WaveRNN进行优化,并定制开发实现的gemm算子,进一步降低了语音合成的实时解码率。

搜狗通过T4的优化性能,也进一步打破学界与产业之间的迁移壁垒,真正实现国内语音行业首创,让WaveRNN声码器技术更好地服务AI语音行业的创新和发展。

不仅如此,随着搜狗AI交互技术开始涉及更多图像相关的应用,如虚拟人、OCR、手写识别、唇语识别、图像以及视频生成等,其深度学习平台对高可用、并行训练服务能力的需求亦进一步提升。

例如,在搜狗AI平台对外开放的过程中,会有大量的用户涌入,基于平台进行训练并定制自己的模型,而在这一过程中,搜狗AI平台需要在任务之间做好排队调度,并充分考虑GPU的负载均衡等问题。

因此从平台层面看,搜狗的服务会通过AI开放平台借助深度学习的能力,去帮助更多的用户实现定制化AI的可能性。

值得一提的是,随着英伟达Tensor RT7的推出,目前搜狗也开始在部分任务上尝试使用该平台。金准产业研究团队预测,未来,随着搜狗AI技术和业务的迭代和创新,也会将Tensor RT7逐步引入到更多任务中。

五、高算力GPU助推语音交互和AI计算平台未来发展

如今,搜狗在AI语音听写方面,已与爱国者、纽曼、索尼、万城四家录音笔行业头部企业成立AI创新联盟,联合搜狗输入法为市场超90%的录音笔提供接入服务。

除此之外,搜狗通过语音+唇语的多模态识别技术研发唇语识别系统,嘈杂环境下识别准确率提升40%以上,同时搜狗还通过搜狗翻译、合成和识别等技术,在跨语言交流、机器同传等多个应用领域拿下行业领先的成绩。

未来,随着AI交互技术应用范围的不断扩展,搜狗也将针对搜狗AI开放平台、多模态技术融合等方面进行升级。

搜狗将借助AI开放平台加速推动AI核心能力对外开放;语音识别和语音合成两方面,包括个性化语音合成、语音变声、多模态交互、手写识别、多模态同传等技术也将带来更多的体验创新和升级。

从内部看,搜狗也将真正打通各个研究团队在GPU资源上的共享能力,并基于平台为公司提供一个相对通用的、统一的一套深度学习的并行训练能力。

而这些由内而外的技术升级,也将对GPU性能产生更大的需求。

不仅仅是对GPU算力需求的增强,同时也需要GPU能够为我们提供更丰富的配套服务。英伟达已逐渐打造了一个良好的AI生态,而搜狗作为生态的一份子,同样也希望它能够在生态上进一步支持搜狗的自身业务,继续助力搜狗AI技术的创新发展。

结语:AI交互技术应用全面爆发,GPU助力催化行业创新

语言的多模态应用,不知不觉间已成为人们生活中习以为常的技术,一句简单的语音识别转写、一次跨语种的同传翻译……这些都是AI交互技术应用在全面爆发的过程中,为人们生活带来的便利。

而在这些便利技术背后所催生的巨大算力需求,也为包括搜狗在内的许多企业提出了新的技术挑战。而搜狗通过借助强大的GPU计算平台,不仅突破了庞大AI计算负载给AI语音带来的算力瓶颈,亦为搜狗在AI语音领域的创新发展提供了重要的算力支持。

面对海量的数据分析请教,以及比以往更复杂的模型训练。在这一背景下,AI技术公司如何开拓并寻找更优质的技术支撑,对自身的基础设施进行更好的优化和提升,亦是每一家公司在AI落地和应用过程中需要考量的。