您的位置:聚讯网络 > 新闻动态 >

【seo案例】阿里开源自研语音识别模型DFSMN,准确率高达96.04%

日期:2018/06/12     阅读:     来源:网络整理
【seo案例】阿里开源自研语音识别模型DFSMN,准确率高达96.04%

【seo案例】阿里开源自研语音识别模型DFSMN,准确率高达96.04%

近日,阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型 DFSMN,将全球语音识别准确率纪录提高至 96.04%(这一数据测试基于世界最大的免费语音识别数据库 LibriSpeech)。

对比目前业界使用最为广泛的 LSTM 模型,DFSMN 模型训练速度更快、识别准确率更高。采用全新 DFSMN 模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了 3 倍,语音识别速度提高了 2 倍。

开源地址:https://github.com/tramphero/kaldi

阿里开源语音识别模型DFSMN

在近期举行的云栖大会武汉峰会上,装有 DFSMN 语音识别模型的“AI 收银员”在与真人店员的 PK 中,在嘈杂环境下准确识别了用户的语音点单,在短短 49 秒内点了 34 杯咖啡。此外,装备这一语音识别技术的自动售票机也已在上海地铁“上岗”。

著名语音识别专家,西北工业大学教授谢磊表示:“阿里此次开源的 DFSMN 模型,在语音识别准确率上的稳定提升是突破性的,是近年来深度学习在语音识别领域最具代表性的成果之一,对全球学术界和 AI 技术应用都有巨大影响。”

【seo案例】阿里开源自研语音识别模型DFSMN,准确率高达96.04%

图:阿里在 GitHub 平台上开源了自主研发的 DFSMN 语音识别模型

语音识别声学模型

语音识别技术一直都是人机交互技术的重要组成部分。有了语音识别技术,机器就可以像人类一样听懂说话,进而能够思考、理解和反馈。

近几年随着深度学习技术的使用,基于深度神经网络的语音识别系统性能获得了极大的提升,开始走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。

目前主流的语音识别系统普遍采用基于深度神经网络和隐马尔可夫(Deep Neural Networks-Hidden Markov Model,DNN-HMM)的声学模型,其模型结构如图 1 所示。声学模型的输入是传统的语音波形经过加窗、分帧,然后提取出来的频谱特征,如 PLP, MFCC 和 FBK 等。而模型的输出一般采用不同粒度的声学建模单元,例如单音素 (mono-phone)、单音素状态、绑定的音素状态 (tri-phonestate) 等。从输入到输出之间可以采用不同的神经网络结构,将输入的声学特征映射得到不同输出建模单元的后验概率,然后再结合 HMM 进行解码得到最终的识别结果。

最早采用的网络结构是前馈全连接神经网路(Feedforward Fully-connected Neural Networks, FNN)。FNN 实现固定输入到固定输出的一对一映射,其存在的缺陷是没法有效利用语音信号内在的长时相关性信息。一种改进的方案是采用基于长短时记忆单元(Long-Short Term Memory,LSTM)的循环神经网络(Recurrent Neural Networks,RNN)。LSTM-RNN 通过隐层的循环反馈连接,可以将历史信息存储在隐层的节点中,从而可以有效地利用语音信号的长时相关性。

【seo案例】阿里开源自研语音识别模型DFSMN,准确率高达96.04%

图 1. 基于 DNN-HMM 的语音识别系统框图

进一步地通过使用双向循环神经网络(BidirectionalRNN),可以有效地利用语音信号历史以及未来的信息,更有利于语音的声学建模。基于循环神经网络的语音声学模型相比于前馈全连接神经网络可以获得显著的性能提升。但是循环神经网络相比于前馈全连接神经网络模型更加复杂,往往包含更多的参数,这会导致模型的训练以及测试都需要更多的计算资源。

另外基于双向循环神经网络的语音声学模型,会面临很大的时延问题,对于实时的语音识别任务不适用。现有的一些改进的模型,例如,基于时延可控的双向长短时记忆单元(Latency Controlled LSTM,LCBLSTM )[1-2],以及前馈序列记忆神经网络(Feedforward SequentialMemory Networks,FSMN)[3-5]。去年我们在工业界第一个上线了基于 LCBLSTM 的语音识别声学模型。配合阿里的大规模计算平台和大数据,采用多机多卡、16bit 量化等训练和优化方法进行声学模型建模,取得了相比于 FNN 模型约 17-24% 的相对识别错误率下降。

FSMN 模型的前世今生

1. FSMN 模型

FSMN 是近期被提出的一种网络结构,通过在 FNN 的隐层添加一些可学习的记忆模块,从而可以有效地对语音的长时相关性进行建模。FSMN 相比于 LCBLSTM 不仅可以更加方便地控制时延,而且也能获得更好的性能,需要的计算资源也更少。但是标准的 FSMN 很难训练非常深的结构,会由于梯度消失问题导致训练效果不好。而深层结构的模型目前在很多领域被证明具有更强的建模能力。因而针对此我们提出了一种改进的 FSMN 模型,称之为深层的 FSMN(DeepFSMN, DFSMN)。进一步地我们结合 LFR(lowframe rate)技术构建了一种高效的实时语音识别声学模型,相比于去年我们上线的 LCBLSTM 声学模型可以获得超过 20% 的相对性能提升,同时可以获得2-3 倍的训练以及解码的加速,可以显著地减少我们的系统实际应用时所需要的计算资源。

更多>>相关文章