怎么更换小_____{河 北 [快 三] 今天 }__________说阅读语音。

  • 大型励志综艺《极限挑战》是东方卫视基于中国社会现实和时代背景原创的户外真人秀该节目有六位固定成员:黄渤、孙红雷、黄磊、王迅、罗志祥、张艺兴,每期会加入不同的飞行嘉宾

一分钟语音笔记特点有三:1.另辟蹊径:区别于电影影评,做脱口秀的汇总笔记2.群英荟萃:十大品牌,你能想到的这都有3.千期汇总:从头到尾,一期不落同步更新。目标:快速回顾增加谈资,精准表达口号:让咱们一起“每天零时一分钟,听懂千期脱口秀”

LAS的一些改进方法6. 语音识别一些其怹的研究方向

今天这节课讲的是端到端的语音处理方法的概述由Navdeep来讲语音识别,讲课的时候他就职于英伟达下面就来看看语音识别都囿哪些内容:

1. 传统的语音识别系统
先来看一看语音识别系统的基本定义:
其实就是把语音信号转换成它的文本表示的一种模型(系统)。┅句话搞定!


那么为什么要用到ASR(语音识别系统呢)
我觉得就是让人们可以通过语音和人或机器交流,这种最友好方便的方式交流比洳说伙伴们在玩儿王者荣耀时候的语音转文字,是不是很方便(不管是喷人或者召集队友==)


下面就是经典的语音识别模型:
传统的语音識别模型是用来构造生成模型的,其中上面每一个模块都使用不同的统计模型
那么我们来看看上面模型是怎么工作的:
(1)首先接收到語音,通过最左边模块(从左往右)生成他的特征序列X;
(2)然后通过右边三个模块(从右往左)并使用一些好的搜索方法,找到什么樣的序列Y会使(1)中产生的特征序列X概率最高


下面我们来看看现在的语音识别系统被改成了什么样子~~

随着时间的推移人们注意到,如果鼡神经网络替换传统语音识别模型的每一个模块的话整个系统效果会更好。

但是改进版的ARS的多模块有多个目标函数那么训练起来可能僦会有一些难度。因此出来了后面的端到端模型。
至于端到端模型的定义可以参考这儿()
语音识别中,理想的端到端模型如下直接建模 p(y|x)

由上面模型图可以知道模型的工作流程如下:
(1)通过对语音信号处理,得到特征 (2)将特征输入到双层的RNN(bi-RNN);
xt?
对应一个输出隱向量 vt?的大为语料库的大|V|;
vt?做softmax运算就可以得到t时刻对应语料库中每个语料概率的大;
(5)通过一定的算法解码过程。


上图中我们可鉯看到语料库中有一个token为 <b>其实是由于语音片段(帧)切割时的随意性,可能导致一个字符c被切割为多个帧每个帧都输出c。为了区分字苻与字符的界限所以引入空格分隔符。在解码的时候还需要限制字符只能转移到相同的字符或者空格。效果如下:
其中出现连续的c表示,此处传入的 x1?x2?语音信号特征都是在发c这个音即c这个发音的语音信号被分成了两个时刻,就好比我们说c的时候可能发音的时間会有1秒,但是模型是每0,5秒切割一次语音信号所以两个信号都在发c这个音。


用CTC模型的两个具体结果如下:
从效果中我们可以看到识别结果还可以但是美中不足的就是会产生拼写错误。此时Google改进方法是:
(1)通过在训练时集成语言模型进去修正了这些问题;
(2)不再使用芓符级别而是使用单词级别的大词表,识别出可能的单词后用语言模型挑出最可能的句子。
但是显然改进后的CTC使用了语言模型的辅助因此不再是纯粹的end-to-end模型。

LAS其实是一种sequence to sequence 模型(还加入了attention机制)前面我们讲翻译模型的时候也讲到过,所以这一部分理解起来还是比较简單的
由上图我们可以看到,LAS是基于encoder-decoder的模型还加入了注意力机制。其工作流程如下:
(1)我们是将语音信号的特征输入到双向RNN中(encoder部分)
(2)做attention在不同的时刻关注输入的不同部分(decoder部分)


关于LAS模型的具体细节图如下:
其中一个值得注意的细节是这里的encoder是树形的,因为对於较长的语音来讲每个时刻都要计算softmax,效率不高、模型注意力被分散因此把相邻的一些输入合并一下,提高了效率和效果


下面说一丅LAS的一些缺点:
(1)必须要整个语音文本才能转换,attention机制
(2)attention机制需要巨大的计算量
(3)输入的长度对模型效果影响较大如下图:

5. LAS的一些改进方法
上面提到了LAS的一些缺点,下面就来介绍一些LAS的提升效果的方法
(2)编码器中加入卷积层
(4)处理词语分界处的错误自信导致搜索时的错误
(5)处理提前终止现象

在线seq2seq模型,顾名思义就是希望能够即时产生输出,而不依赖于整个语音信号特征
其实就是将输入截成定长的几段,每一段产生一些输出这样就可以做到即时输出。输出完了以后任然需要进行分配即哪几个字母属于一个单词,课程Φ说道可以采用动态规划解决


效果图说明有attention机制的模型不受窗口大影响。没attention机制的模型窗口越大效果越差。

5.2 编码器中加入卷积层

LAS模型Φ我们采用树形encoder的时候把相邻的一些输入合并一下,提高了效率和效果
而此处的思路是,不简单的将输入合并而是将其进行卷积,嘫后再输入到encoder模型图如下:
这样做的效果我就不展示了,处理后的输入肯定比简单拼接效果更好

5.3 目标粒度的选择
其实就是语音识别文夲,识别后的粒度大有如下几种:
还有更符合语音特点的粒度大,那就是n-gram(n代表最大n个字符组合成一个)
不同粒度大效果如下:
对于end to end模型来说,会让模型决定n-gram的分割:

5.4 处理词语分界处的错误自信导致搜索时的错误
如果在开头困惑度不是很高那么后面搜索起来就会比较順利,但是如果刚开始模型就比较困惑不确定,那么后面的搜索就可能出现搜索错误

5.5 处理提前终止现象
模型对于生成很长的输出会进荇惩罚,因此很长的输入出现提前终止的情况如下图:
解决办法就是在预测时未处理的输入越多,惩罚越大

6. 语音识别一些其他的研究方向
(1)多源语音信号的识别(鸡尾酒舞会问题)
能够在一个人,不同麦克风录制的语音中识别出来各个麦克风中的话。
能够在多人语喑中识别出不同人的话
打个比方就是,你说的是法语我先讲法语识别成文本,然后再翻译成英文

这一节课看起来很有意思,就是有些名词或者概念没咋听说过理解起来有一定难度。目前也没有做过有关语音方面的问题权当是给自己科普了吧。

我要回帖

更多关于 小南河 的文章

 

随机推荐