博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
BLSTM的训练算法、解码算法以及模型的改进
阅读量:5298 次
发布时间:2019-06-14

本文共 2962 字,大约阅读时间需要 9 分钟。

摘要

BLSTM解码时,解码器需要等待整个音频到达后才开始解码,因为时间反方向的前向传播需要末尾的历史信息。BLSTM这一延时问题使其不适用与实时语音识别。context-sensitive-chunk BLSTM(CSC-LSTM)和latency-controlled BLSTM(LC-BLSTM,延时控制-双向LSTM)都将整句切分为数个chunks。通过在每个chunk中添加左右上下文帧,并以chunk为单位进行前向计算,BLSTM的延迟可以控制为一个chunk左右的时长,并且与传统BLSTM相比,可以保持原有准确率基本不变。文本提出了两种LC-BLSTM。通过使用不同类型的神经网络拓扑以初始化BLSTM的cell状态;通过上下文帧和快速在线识别以降低计算开销。320h Swbd实验显示本文的解码速度能加速24%至61%而无识别率的损失。

   

LSTM声学模型(包括其变形,比如highway LSTM网络)中,双向LSTM的识别率远远优于单向LSTM。然而双向LSTM模型的延迟极高,不适用于在线语音识别。为了克服这一限制,文献[1]、文献[2]、文献[10]和文献[11]研究了基于Chunk的训练与解码。

   

Chunk BPTT

文献[5]提出了Chunk BPTT

加速BPTT训练

  • 将特征序列切分为固定长度的chunks
  • 将多个chunks组合为更大的batches

对Chunk大小的调优

使用一块NVIDIA GTX680 GPUIAM手写数据集的训练时间如下:

chunk大小设定为100能取得FER与训练时间之间的平衡。

   

epochwise BPTT

GPU的内存大小限制了一个mini-batch中的序列数(对于很长的序列来说),这会导致加速效果较差。

   

CSC BPTT

文献[6]提出CSCContext-Sensitive-Chunk BPTT训练方法以及基于CSCs的解码方法,并应用于手写识别中。

   

epochwise BPTT可表示为0-Full+0,由于此处的chunk即完整的帧序列

   

BPTT在BLSTM-HMM中的应用,以及提出了基于CSCs的解码方法

文献[7]CSC-BPTT应用于语音识别中。

   

受到语音语句中协同发音的影响,每个音素的语音帧基本上只受之前和之后几帧影响。那么,就没有必要用BLSTM对整句话进行建模。因此,只需对一个较小的chunk建模即可。

   

CSC的示例配置为"21-64+21",若基于CSC的解码中,chunk之间不存在帧的重叠,那么延迟为85帧或850毫秒。

   

基于CSC的解码

对于使用CSC-BPTT训练的BLSTM,待识别的语句也要使用与训练时相同的配置切分为多个CSCs

若需要考虑到计算复杂度,那么解码时CSCs之间可以没有重叠;否则,CSCs之间可以有若干帧的重叠,以取得更高的识别率。比如:

   

LC-BLSTM

   

CSC-BLSTM未利用历史chunk的记忆状态信息,这带来了额外的计算。文献[8]提出了延时控制-BLSTMLC-BLSTM)。在时间反向计算中,LC-BLSTM只使用修剪过的下文信息用作cell状态的初始化。

   

   

LC-BLSTM的改进

由于LC-BLSTM的时间反向计算中需要额外对右下文进行计算,这大大增加了计算量。为此,文献[9]提出了LC-BLSTM-FALC-BLSTM-FABDILC-BLSTM-FABSR

   

LC-BLSTM Without Forward approximation

   

LC-BLSTM-FA(With Forward approximation)

LC-BLSTM-FA去除了上述无用的计算

   

   

本节介绍两种效率改进的LC-BLSTM,用于快速实时在线语音识别

LC-BLSTM-FABDI(Forward Approximation and Backward DNN Initialization)

每个BLSTM层的前向计算步可以分解为:

时间正向:

时间反向:

   

   

   

LC-BLSTM-FABSR(Forward Approximation and Backward Simple RNN)

第二种结构被称为"forward approximation and back-

SRNN的训练需要处理长程依赖,因此容易发生梯度爆炸。为此在LC-BLSTM-FABSR的训练中,需要使用更为严格的梯度修剪以促进收敛。

实验表明,LC-BLSTM-FAWER优于LC-BLSTM-FABDILC-BLSTM-FABSR,但LC-BLSTM-FABDILC-BLSTM-FABSR的解码速度比前者快。

参考文献

  1. A. Zeyer, R. Schluter, and H. Ney, "Towards online-recognition with deep bidirectional LSTM acoustic models," Proceedings of Interspeech, vol. 08-12-Sept, pp. 3424–3428, 2016.
  2. P. Doetsch, M. Kozielski, and H. Ney, "Fast and Robust Training of Recurrent Neural Networks for Offline Handwriting Recognition," Proceedings of International Conference on Frontiers in Handwriting Recognition, ICFHR, vol. 2014-Decem, pp. 279–284, 2014.
  3. K. Chen, Z.-J. Yan, and Q. Huo, "Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach," in Proceedings of the Interspeech, 2015.
  4. A.-r. Mohamed, F. Seide, D. Yu, J. Droppo, A. Stoicke, G. Zweig, and G. Penn, "Deep bi-directional recurrent networks over spectral windows," in Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 78–83.
  5. IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION. Shaofei Xue, Zhijie Yan, Alibaba Inc, China

转载于:https://www.cnblogs.com/JarvanWang/p/10756852.html

你可能感兴趣的文章
[Flex] flex手机项目如何限制横竖屏?只允许横屏?
查看>>
tensorflow的graph和session
查看>>
JavaScript动画打开半透明提示层
查看>>
Mybatis生成resulteMap时的注意事项
查看>>
jquery-jqzoom 插件 用例
查看>>
1007. Maximum Subsequence Sum (25)
查看>>
iframe的父子层跨域 用了百度的postMessage()方法
查看>>
图片生成缩略图
查看>>
动态规划 例子与复杂度
查看>>
查看oracle数据库的连接数以及用户
查看>>
【数据结构】栈结构操作示例
查看>>
中建项目环境迁移说明
查看>>
三.野指针和free
查看>>
activemq5.14+zookeeper3.4.9实现高可用
查看>>
TCP/IP详解学习笔记(3)IP协议ARP协议和RARP协议
查看>>
简单【用户输入验证】
查看>>
python tkinter GUI绘制,以及点击更新显示图片
查看>>
HDU4405--Aeroplane chess(概率dp)
查看>>
CS0103: The name ‘Scripts’ does not exist in the current context解决方法
查看>>
20130330java基础学习笔记-语句_for循环嵌套练习2
查看>>