完整的细节,请参考下面列出的纸。
反混响通常使用主要表现在时频域深度学习的方法。时频域处理,然而,或许没有必要当混响建模的卷积操作。在本文中,我们调查是否deverberation可以有效地执行在频域估计房间脉冲响应的复杂的频率响应。更具体地说,我们开发一个共同学习的框架,使用频域估计的混响回应协助估算的直接和早期反应。我们系统地比较我们建议的方法基于最近的深度学习的方法,在时频域。结果表明,频域处理实际上是可能的,而且往往优于基于时频域方法在不同条件下。
混响降低感知语音质量和可懂度,声音反射模糊信号结构。这将创建一个挑战对于许多应用程序,包括助听器,自动语音识别和说话人识别。反混响通常使用主要表现在时频域深度学习的方法。时频域处理,然而,或许没有必要当混响建模的卷积操作。作为一种替代方法来执行反混响与深度上优于频域方法,可以避免假设在不同的环境中。
1。问题公式化:
目标是消除反射末从相应的混响语音信号在频域通过操作。早期预测目标是直接加房间脉冲响应在频域(RIR)。网络使用joint-LSTM网络预测直接加上RIR早期和晚期RIR在频域。
2。特性:
给定一个时域反射的信号y (t): 1024分计算离散傅里叶变换(DFT);连接的真实和虚构的成分1024点DFT作为输入。
3所示。培训的标签:
预测RIR的转移功能相反的言论:变换直接加上早期RIR ($ h_ {de} (t)美元)和已故的RIR ($ h_ {1} (t)美元)到1024点阶(N = 1024);连接产生的DFT的真实和虚构的成分。
4所示。目标函数:
使用标准的反向传播算法训练均方误差代价函数
(从左到右)左边的部分网络预测RIR末在频域:神经元的数量为每个LSTM层设置为2048;三个完全连接(FCN)层。正确的部分预测直接加上早期RIR频域:神经元的数量为前2 LSTM层设置为4096;神经元的数量设置为2048过去LSTM层;三个FCN层。
(从左到右)特别提款权(db)的结果,STOI(从0到1)结果,PESQ(从-0.5 tp 4.5)的结果。IRM,这个和光谱代表相应的映射系统中实现时频域,和联合FCN和联合LSTM代表系统在频域实现。最好的结果在每个类别以粗体表示。
×详情,请查看以下下面引用的论文。您还可以查看上面的视频Khandokar。Nayem概述的方法。
语音增强极大地受益于深度学习。目前,表现最好的深层结构使用长期短期记忆(LSTM)递归神经网络(RNNs)模型短期和长时间依赖关系。然而,这些方法未充分使用或忽略spectral-level依赖性在大小和相位响应,分别。在本文中,我们提出一个深度学习架构,利用时间和光谱依赖在大小和相位响应。更具体地说,我们第一次火车LSTM网络预测谱幅度响应和群延迟,在这个模型中捕获时间相关性。然后我们介绍马尔可夫过程的反复连接在输出层捕获光谱依赖在大小和相位响应。我们比较我们的方法与传统的增强方法和方法考虑光谱依赖关系在一个时间框架。结果表明,考虑到within-frame光谱依赖导致改进。
单声道的语音增强是一个具有挑战性的任务,旨在从一个音频通道,删除不必要的背景噪音,提高感知语言智能和质量。深度学习导致更高的性能,但需要额外的改进在嘈杂的环境中。一个端到端的模型使用一个utterance-based目标函数显示了有前景的结果在语音增强的任务,和它保持高低频光谱信息。在这些方法中,近似时频(t f)之前输出是基于网络层和前(时间)t f单元的输出。输出,然而,不是基于相邻级响应内或附近的频率点。然而,众所周知,演讲光谱沿频率轴的依赖关系,但当前架构往往忽视这些相关性。在语音识别[2]和音频编码[1]后恢复,专用LSTM模块是用来学习光谱依赖关系,但这是在子带频率级或总时间。此外,这些方法不考虑当地的光谱依赖性在短时实例。因此,我们提出一个intra-spectral(例如across-frequency)复发层捕获频率依赖关系在每个语音信号的时间框架。给定一个嘈杂的语音输入,LSTM网络与多个目标损失函数学习演讲的时间依赖关系。 We then append the proposed intra-spectral recurrent (ISR) layer to enforce spectral-level dependencies. Our preliminary work showed that incorporating spectral-level dependencies within the magnitude domains leads to noticeable improvements [18].
在时域,嘈杂的演讲m_t是一笔美元清洁演讲s_t和噪音n_t美元美元,t是美元指数。
相应地,美元M_ {t, k} $ t f域吵闹的演讲,这是乘法美元级| M_ {t, k} |美元和美元指数的阶段e ^{我\θ^ M_ {t, k}} $, $ k美元是频率指数。我们可以考虑吵闹的演讲作为一个联盟的两个声音来源,$ _{}$这是干净的演讲和$ _{}$这是噪音,与美元阶段\ t fθ^ S_ {t, k} $和$ \θ^ N_分别{t, k} $。
我们的目标是近似纯净语音${}\帽子̂_{},通过学习函数φ$ _ \美元在嘈杂的演讲,换句话说,在大小和相位噪声的演讲。这可以密切近似的大小和相位响应干净语音和噪声,鉴于我们可以单独的声音来源。
群时延的信号可以计算之间的相位差角指数(k + 1), $ k美元美元th频率。在这里,我们表示群延迟(GD)信号$ _{}$美元GD ^ S_ {t, k} $。
级反应不同,演讲的阶段没有显示一个清晰的结构。我们可以看到在下面的图片,左边是一个信号的幅度谱图和中产阶段的演讲。虽然,这是一个干净的语音信号,相位图不显示任何清晰的结构。另一方面,正确的大多数照片这是群延迟的信号显示了在对数幅度制定learn-able模式。
学习的大小,最优估计损失函数级美元\ mathcal {L} _ {mag} $是均方误差的总和之间的大小(清洁和言论估计),和(估计噪声和噪声)。学习的群延迟,最优估计群延迟损失函数美元\ mathcal {L} _ {gd} $是余弦距离的总和之间的群延迟(清洁和言论估计)和(估计噪声和噪声)。因此,合并后的损失函数,美元\ mathcal {L} _{镁+ gd}的加权平均美元\ mathcal {L} _{杂志}$和$ \ mathcal {L} _ {gd} $。
与上面的损失函数,我们训练一个基线LSTM模型。这里,纯净语音和噪声视为2单独的声音来源。所以每个信号都有他们的大小和相位/群延迟。LSTM模型需要混合的大小和群延迟的混合物作为输入。他们在t f域。输出层支在两个方面,一个是大小近似,而另一个是语音和噪声的GD近似值。因为我们有两个独立的声音来源,干净的语音和噪声,总共有4个输出。我们使用一个非常天真的深架构,因为我们的目标是将光谱信息的有效性
一次展开网络预测复发$ ^{ℎ}$美元时间条件的频率成分(−1)^{ℎ}$时间框架。从复发性网络的角度来看,目标是捕获时间的影响是不同的。结构或关系跨越时间通过这个模型是后天习得的。现在,可以使用一个频率捕获光谱影响展开复发性网络。然而,这种方法并不自然,因为它使用未来的频率点进行推理。这意味着当前时间计算一个频率点,它可以从频率点还没有到来。在人类的耳朵,我们感觉到通过基膜的振动频率,在根区域感知高频率和顶点区域感知较低的频率成分。这意味着人类感知频率本地化和频率相同的时间戳是相关的。这表明一个频率分量的$ ^{ℎ}$时间取决于其邻居的频率成分。
考虑定期复发性层的限制,我们建议Intra-Spectral双向反复层(ISBR层)。每个神经元ISBR层代表了本信号的频率。最右边的神经元代表最低频率分量。最左边的神经元代表最高频率分量。从左到右,从低到高频率建模和右到左,高到低频率进行建模。intra-spectral复发都去(增加与减少)沿频率轴的方向。在下图中,红色连接代表增加或复发频率(低到高)。和紫色的连接代表减少或复发频率(高到低)。
我们比较建议的方法对5其他方法,和话音质量的指标比较感性评价(PESQ),短期目标清晰度(STOI)、尺度不变signalto-distortion比率(SI-SDR)。
IEEE语料库 | TIMIT语料库 | |||||
---|---|---|---|---|---|---|
PESQ | STOI | SI-SDR | PESQ | STOI | SI-SDR | |
混合物 | 1.86 | 0.62 | -1.47 | 1.58 | 0.51 | -2.33 |
L-Stack_mag [1] | 2.02 | 0.59 | -0.59 | 1.82 | 0.5 | -0.84 |
L-FT_mag [2] | 2.05 | 0.6 | -0.2 | 1.88 | 0.52 | -0.26 |
L-ISBR_mag [3] | 2.24 | 0.64 | 0.22 | 1.93 | 0.52 | -0.03 |
LSTM_mag + gd | 2.24 | 0.64 | 0.12 | 1.97 | 0.53 | -0.1 |
ISBR_mag + gd | 2.34 | 0.67 | 0.92 | 2.04 | 0.58 | 0.84 |
PC-tf-M_mag +阶段[4] | 2.31 | 0.67 | 0.85 | 2.04 | 0.58 | 0.72 |
PSM_mag +阶段[5] | 2.27 | 0.65 | 0.4 | 2 | 0.56 | 0.32 |
我们建议的方法优于t f屏蔽方法,这意味着将spectral-level大小和相位依赖性是有益的。我们使用ISBR层与天真LSTM方法来显示它可以提高整体性能。此外,该ISBR层可以作为输出层之上的任何先进的模型。
详情,请查看以下下面引用的论文。
基于深度学习的语音增强系统提供了巨大的收益,表现最好的方法使用长期短期记忆(LSTM)递归神经网络(RNNs)相关性模型时间讲话。然而这些模型,不考虑频率级关联在一个时间框架,作为光谱依赖沿频率轴常常忽略。这导致不准确的频率响应,负面影响感知质量和清晰度。我们提出一种深度学习的方法,考虑时间和频率级依赖关系。更具体地说,我们执行spectral-level依赖关系在每个光谱时间框架通过引入周期性输出层模型沿频率轴的马尔可夫过程的假设。我们评估我们的方法在各种语音和噪声的环境中,和客观地显示这个反复光谱层提供了性能比传统的方法。我们还表明,我们的方法优于最近的方法,考虑频率级依赖关系。
语音增强,力求有效地删除不需要的背景噪音,对多个应用程序是一个重要的问题,包括语音助手(如谷歌和亚马逊呼应),助听器,许多军事应用。这些设备和应用程序的性能严重降低噪声存在时,噪声很难理解演讲,很大程度上是由于光谱和时间掩蔽效应呈现讲话听不清。一般深度学习方法产生t f输出之前,是基于网络层和前(时间)t f单元的输出。换句话说,在特定时频光谱输出不是基于光谱输出指向相邻或附近的频率点。这是众所周知的问题,语音谱沿频率轴的依赖关系。这里我们提出一个intra-spectral(如跨-频率)复发层捕获频率依赖关系在每个语音信号的时间框架。给定一个嘈杂的语音输入,多个LSTM层首先捕捉讲话的时间依赖关系。然后添加该intra-spectral复发层执行光谱级依赖关系。整个网络训练的对数幅度谱估计干净演讲。
我们定义s_t纯净语音和n_t美元美元在时域中不需要的噪声。然后m_t表示美元混合物在时间t美元嘈杂的演讲。
使用短时傅里叶变换),S_{},是美元时频域(t f)干净语音信号在时间t和频率k美元美元。同样,美元M_ {t, k} $ t f域吵闹的演讲,这是乘法美元级| M_ {t, k} |美元和美元指数的阶段e ^{我\θ^ M_ {t, k}} $。
我们的目标是近似纯净语音级${}| \帽子̂_{,}|通过学习函数φ$ _ \美元在嘈杂的混合级参数\φ美元。我们复制近似演讲使用嘈杂的混合阶段。
对于一个基线,我们使用一个完全连接深层神经网络(款),每一美元的时间框架| M_ {t, k} |输入和估计美元| \帽子{年代}_ {t, k} | $是输出。输出每一层$ ^ l_t美元由以下方程计算l层,美元\σ是激活函数,美元V ^ l l z ^和$美元美元分别重量和偏见。然而,在款模型,在时间和频率输出是不相关的,在每个神经元和光谱输出不依赖于光谱从其他输出层神经元的输出。
在基线LSTM,输入和输出级的谱图基线款一样。输出每一层$ ^ l_t由以下方程计算f美元^ l_t $, $ i ^ l_t美元,美元o ^ l_t代表l $美元th层的激活忘记向量,输入和输出的大门LSTM细胞,在时间t美元。h ^ l美元是隐藏的状态向量和$ c ^ l_t的细胞状态向量l美元美元th层。每个LSTM层有n ^ l LSTM美元单位。此外,W美元,U,美元和b美元的重量和偏见矩阵优化在训练。
捕捉intra-spectral相关性与复发性层,我们建议使用一个一阶马尔可夫假设。换句话说,知道相邻谱组件的依赖,我们设计一个周期性层函数作为一个马尔可夫链,在光谱输出在一定频率作为输入提供给相邻的神经元。这样做是在整个频率轴。输出层中的每个神经元对应一个频率。传统LSTM网络首先pre-trained,然后ISR / ISBR原始输出层输出层取代了。
我们比较建议的方法与其他方法在不同噪声条件下,言论和指标的比较感性评价质量(PESQ),短期目标清晰度(STOI)、尺度不变signalto-distortion比率(SI-SDR)。
PESQ | STOI | SI-SDR | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
SSN | 咖啡馆 | 工厂 | 呀呀学语 | SSN | 咖啡馆 | 工厂 | 呀呀学语 | SSN | 咖啡馆 | 工厂 | 呀呀学语 | |
混合物 | 1.95 | 1.86 | 1.83 | 1.77 | 0.71 | 0.62 | 0.65 | 0.59 | -0.51 | -2.06 | -0.96 | -1.97 |
款[1] | 2.04 | 1.89 | 2.02 | 1.89 | 0.75 | 0.63 | 0.72 | 0.56 | -1.75 | -1.1 | -1.4 | -1.39 |
LSTM | 2.12 | 1.97 | 2.05 | 1.95 | 0.77 | 0.64 | 0.76 | 0.62 | -0.96 | -1.35 | -0.15 | -0.44 |
D-ISR | 2.24 | 2.08 | 2.26 | 2.08 | 0.85 | 0.76 | 0.86 | 0.76 | -1.49 | -2.91 | -2.75 | -3.48 |
L-ISR | 2.27 | 2.21 | 2.29 | 2.11 | 0.82 | 0.68 | 0.84 | 0.72 | 0.06 | -1.34 | 0.17 | -1.3 |
L-ISBR | 2.3 | 2.24 | 2.31 | 2.13 | 0.88 | 0.74 | 0.87 | 0.73 | 2.35 | -0.12 | -0.94 | -0.01 |
L-FT [2] | 2.12 | 2.01 | 2.07 | 2.04 | 0.82 | 0.74 | 0.82 | 0.66 | 1.04 | -1.16 | -0.88 | -0.1 |
我们比较STOI SI_SDR分数在不同的信噪比(信噪比)。SI-SDR而言,我们建议L-ISBR方法执行最好的在每个信噪比,在它执行更具挑战性的低信噪比情况下明显更好。根据STOI D-ISR最多和L-ISBR方法执行同样的信噪比,和最佳统一。
各种噪声和信噪比的改善值证明提出的ISR / ISBR层以及基本LSTM网络成功捕获时间和光谱的相关性。此外,LSTM网络的总体性能与ISR / ISBR层(L-ISR / L-ISBR)显示邻近频率之间的关系是重要的评估清洁演讲。
请参考下面的文章关于演讲的影响放大完整细节听力受损的人。
听力损失是普遍的在老年人中,导致在嘈杂的环境中语音理解困难。语音增强算法从而提出缓解这在嘈杂的问题。然而,大多数的这些算法没有被评估为听力受损的人要么有或没有使用助听器。在这项研究中,我们评估了几种语音增强算法的性能(即。基于非负矩阵分解,基于deep-neural-network短期记忆和长(LSTM)算法)对听力受损的听众使用客观语音质量指标,即助听器话音质量指数(HASQI)。HASQI是基于生理听觉处理模型的启发,也允许模拟听力障碍。典型的单独评估重复听到在不同年龄段不同性别的特征。辅助条件下,线性放大使用NAL-R实施处方公式。语音增强算法的好处减少与增加程度的听力损失。放大,听众群的利益减少最严重的听力障碍。 Among the various algorithms, the LSTM-based structures exhibit superior performance with and without amplification.
语音增强算法的目标是去除干扰噪声从嘈杂的演讲。是假设应用放大增强语音信号将提高演讲了解听众的年龄相关性听力损失。本研究调查了语音增强后语音质量和放大使用客观语音质量指标,从听力受损的听众HASQI [1]。在我们以前的工作[2],没有听觉损失的补偿申请听力受损的组织,因此,有可能降低HASQI分数仅仅反映了由于听力损失减少了可用的语音带宽。在目前的研究中,评价由Zhang et al。[2]是重复的和没有放大应用语音增强。
1。激活集牛顿算法[3]:
NMF的延伸,有效集牛顿算法(ASNA)表示为\帽子{x} = Bw,美元在{x} \帽子是美元目标语音信号,B是美元训练语音字典和w美元代表了激活权重。这种方法适用于牛顿法更新权重更有效地比其他NMF方法。
2。DNN-based理想比率估计面具[4]:
网络有三个隐藏层和1024单位。ReLU激活函数应用于隐藏层和一个线性激活函数应用到输出层。一组互补特性[4]作为网络的输入。理想比面具(IRM)作为训练目标,即定义为:$ M_ {t、f} ^ {rm} = \左| s_ {t、f} \ | /(左\ | s_ {t、f} \右| + \左| n_ {t、f} \ |)美元。均方误差(MSE)损失函数是用于培训。这种方法和D-IRM表示。
3所示。DNN-based复杂的理想比率估计面具[5]:
网络包括三个隐藏层和1024单位。所有的隐藏层使用ReLU激活功能。输出层使用一个线性激活函数。复杂的理想比面具(cIRM)可以被定义为:美元M_ {t、f} ^ {crm} = \压裂{\左| s_ {t、f} \右|}{\左| y_ {t、f} \右|}\ cos (\ theta_ {t、f}) + j \压裂{\左| s_ {t、f} \右|}{\左| y_ {t、f} \右|}\罪(\ theta_ {t、f}),美元,美元\ | y_ {t、f} \ | $代表级响应的嘈杂的演讲中,j表示虚数,美元和美元\ theta_ {t、f} = \θ^ s_ {t、f} - \θ^ y_ {t、f} $,例如,言语之间的相位差和嘈杂的演讲。均方误差(MSE)损失函数是用于培训。这种方法和D-cIRM表示。
4所示。LSTM-based理想比率估计面具[6]:
网络有两个LSTM层每层256个节点,紧随其后的是第三个s形层257单元。IRM被用作目标面具。
采用掩模近似(MA)[6]的损失函数:$ E ^{马}\离开(M_ {pred} \右)= \ sum_ {t、f} {(M_{真}-M_ {pred})} ^ 2美元,而美元M_ {pred}是预测面具和M_美元IRM{真}$。这种方法和L-IRM表示。
5。双向LSTM-based相敏掩盖估计[7]:
LSTM网络类似的网络结构,两层Bi-LSTM(每256个节点)和一层完全连接神经元的257辆。相敏面具(PSM)作为目标,定义为美元M_ {t、f} ^ {PSM} = \压裂{| s_ {t、f} |} {| y_ {t、f} |} cos (\ theta_ {t、f})美元。相敏谱近似(PSA)作为成本函数:$ E ^ {PSA} \离开(M_ {pred} \右)= \ sum_ {t、f} {(M_{真}| y_ {t、f} | -M_ {pred} | y_ {t、f} |)} ^ 2美元,而美元M_{真}是理想的PSM美元M_ {pred}是估计的美元。这种方法和BL-PSM表示。
HASQI要求听觉阈值作为输入模拟听力损失。下面是我们收集到的听觉阈值[8]。
听力阈值(dB HL)的男性(M)和女性(F)对象在不同的年龄段。
话语从三个语音语料库结合,为了调查上述算法的性能在不同的演讲材料。语音数据包括1440年IEEE为男性和女性话语扬声器,250 male-speech话语听到噪音测试(提示)语料库和2342年男性和女性的话语从TIMIT数据库。清洁话语进一步被四种类型的噪音在不同层次,包括飞机,胡言乱语,狗的吠声,火车的声音。纯净语音和噪声混合在几个信噪比从5 dB 20 dB的步骤5分贝。所有在16 kHz信号重新取样。
在最近的研究中,根据标准清洁参考信号放大助听器处方公式(例如NAL-R) [9]。这个公式生成一个固定增益,独立于输入电平(即线性放大),为每个频率区域。因此,用于计算的参考信号HASQI分数代表演讲听到在安静的通过典型的线性放大。
为每个组合的语音增强算法和侦听器组,话音质量计算使用HASQI(“混合物”)之前或之后(“增强”)语音增强,和(“情商。没有(“情商”)或。从”)放大。测试信号,用来计算HASQI分数根据条件是不同的。具体地说,当没有放大,吵闹的演讲混合物中使用“混合Eq。”条件,和增强演讲中使用“加强情商。”条件。放大时,测试信号的噪声语音混合放大根据NAL-R公式“情商混合物。”条件,并根据NAL-R增强的语音放大公式的“增强情商。”条件。
HASQI(从0到1)结果与NAL-R放大。每个曲线在一个面板显示HASQI分数的函数pure-tone-average (PTA)阈值,阈值的平均值为500,1000和2000赫兹(即。、频率对演讲的理解最重要)。四个数据点在曲线显示四个侦听器组,该集团与更高的年龄范围对应于一个更高的PTA阈值。
如上图所示,放大总是导致语音质量的改善。没有语音增强,受益于放大略有增加,听力损失的程度增加(比较填充和空圆圈)。这个听力损失的影响不太明显,当语音增强。在所有五个语音增强算法,语音增强提高了预测语音质量HASQI(比较三角形和圆)。然而,与放大条件下,受益于语音增强随着PTA阈值增加。LSTM和BLSTM-based结构中表现最好的算法都有或没有放大。我们推断,听力损失的程度增加,将会有更少的好处从穿着数字助听器设备内置语音增强。
引用:
详情请参考下面的纸。
许多语音增强算法已经提出多年来,它已被证明,深层神经网络可能导致重大改进。然而,这些算法还没有被验证为听力受损的听众。此外,这些算法往往是评估在有限范围的信噪比(信噪比)。在这里,我们建立一个多样化的语音数据集与广泛的信噪比和噪音。几个增强算法在听力正常和模拟hearingimpaired条件下相比,语音质量的感知评价(PESQ)和助听器话音质量指数(HASQI)作为客观指标。数据的频率刻度的影响(梅尔与线性)对性能也进行了评估。结果表明,长期短期记忆(LSTM)网络与数据PESQ Mel-frequency域得到最好的性能,和双向LSTM网络与数据的线性频率刻度执行最好的听力受损的设置。Mel-frequency规模导致改善PESQ分数,但减少HASQI分数。
演讲退化的噪音对个人是一个常见的问题,特别是对于有听力障碍的人。然而,许多语音增强算法还没有被验证为听力受损的听众。在这项研究中,我们主要研究5种不同的语音增强算法[1、2、3、4、5)和评估其有效性在模拟听力受损的听众用HASQI[6]的评价指标。同时,频率的影响规模(梅尔与线性)也进行调查,研究使用不同的频率尺度没有进行直接比较。PESQ还包括其他评价指标。
1。激活集牛顿算法[1]:
NMF的延伸,有效集(ASNA)表示为牛顿算法
$ {x} \帽子= Bw美元
{x} \帽子美元在哪里目标语音信号,B是美元训练语言词典和w美元代表了激活权重。这种方法适用于牛顿法更新权重更有效地比其他NMF方法。
2。DNN-based理想比率估计面具[2]:
网络有三个隐藏层和1024单位。ReLU激活函数应用于隐藏层和一个线性激活函数应用到输出层。一组补充功能[2]作为网络的输入。理想比面具(IRM)作为训练目标,定义为:
美元M_ {t、f} ^ {rm} = \左| s_ {t、f} \ | /(左\ | s_ {t、f} \右| + \左| n_ {t、f} \ |)美元
基于深度学习的系统,我们实现它们在线性和梅尔·频域之间的转换梅尔和线性范围被定义为:
$ | s_ {t、f} ^{梅尔}| = B | s_ {t、f} |, \四| s_ {t、f} ^ {iMel} | = B ^ {t} | s_ {t、f} ^{梅尔}| $
在${|年代}_ {t、f} ^{梅尔}| | Mel-domain信号美元s_ {t、f} ^ {iMel} | $ inverse-Mel转换后是线性范围的信号。B美元代表一个矩阵的权重结合短时傅里叶变换(STFT)垃圾箱进入梅尔垃圾箱,B和$ ^ {T}代表的转置B美元美元。注意,Mel-transformation是一个损耗的过程。
损失函数:均方误差。
这种方法和D-IRM表示。
3所示。DNN-based复杂的理想比率估计面具[3]:
网络包括三个隐藏层和1024单位。所有的隐藏层使用ReLU激活功能。输出层使用一个线性激活函数。复杂的理想比面具(cIRM)可以被定义为:
美元M_ {t、f} ^ {crm} = \压裂{\左| s_ {t、f} \右|}{\左| y_ {t、f} \右|}\ cos (\ theta_ {t、f}) + j \压裂{\左| s_ {t、f} \右|}{\左| y_ {t、f} \右|}\罪(\ theta_ {t、f})美元
,美元\ | y_ {t、f} \ | $代表级响应的嘈杂的演讲中,j表示虚数,美元和美元\ theta_ {t、f} = \θ^ s_ {t、f} - \θ^ y_ {t、f} $,例如,言语之间的相位差和嘈杂的演讲。
损失函数:均方误差。
这种方法和D-cIRM表示。
4所示。LSTM-based理想比率估计面具[4]:
网络有两个LSTM层每层256个节点,紧随其后的是第三个s形层。IRM被用作目标面具。
采用掩模近似(MA)[4]作为损失函数:
马$ E ^{} \离开(M_ {pred} \右)= \ sum_ {t、f} {(M_{真}-M_ {pred})} ^ 2美元
在美元M_ {pred}是预测面具和M_美元IRM{真}$。
这种方法和L-IRM表示。
5。双向LSTM-based相敏掩盖估计[5]:
LSTM网络类似的网络结构,两层Bi-LSTM(每256个节点)和一层完全连接神经元。相敏面具(PSM)作为目标,定义为
美元M_ {t、f} ^ {psm} = \压裂{| s_ {t、f} |} {| y_ {t、f} |} cos (\ theta_ {t、f})美元
相敏谱近似(PSA)作为成本函数:
$ E ^ {PSA} \离开(M_ {pred} \右)= \ sum_ {t、f} {(M_{真}| y_ {t、f} | -M_ {pred} | y_ {t、f} |)} ^ 2美元
在美元M_{真}是理想的PSM美元M_ {pred}是估计的美元。
这种方法和BL-PSM表示。
HASQI要求听觉阈值作为输入模拟听力损失。下面是我们收集到的听觉阈值[7]。
听力阈值(dB HL)的男性(M)和女性(F)对象在不同的年龄段。
话语从三个语音语料库结合,为了调查上述算法的性能在不同的演讲材料。语音数据包括1440年IEEE为男性和女性话语扬声器,250 male-speech话语听到噪音测试(提示)语料库和2342年男性和女性的话语从TIMIT数据库。清洁话语进一步被四种类型的噪音在不同层次,包括飞机,胡言乱语,狗的吠声,火车的声音。纯净语音和噪声混合在几个信噪比从5 dB 20 dB的步骤5分贝。
(从左到右)PESQ(从-0.5到4.5)结果,HASQI(从0到1)的结果。D-McIRM, D-MIRM L-MIRM, BL-MPSM代表相应的系统中实现Mel频率域。
RNN-based方法导致更高PESQ HASQI成绩,听力正常的听众。hearingimpaired听众,BLSTM方法达到最佳的性能在所有年龄组男女双方。我们还发现两款RNN-based方法,Mel-frequency域处理会导致改善PESQ分数,但减少HASQI分数。
引用:
完整的细节,请参考下面列出的纸。
最近的研究表明,它是可行的使用生成对抗网络(甘斯)语音增强,然而,这些方法没有先进的(SOTA)相比,非GAN-based方法。此外,许多损失函数提出了GAN-based方法,但是他们没有得到足够的比较。在这项研究中,我们提出新颖的卷积复发为语音增强氮化镓(CRGAN)架构。采用多个损失函数,使直接比较其他GAN-based系统。包括复发性层也探索的好处。我们的结果表明,该CRGAN模型优于SOTA GAN-based模型使用相同的损失函数而且它优于其他基于non-GAN的系统,表明使用氮化镓语音增强的好处。总的来说,CRGAN模型,结合客观度量损失函数和均方误差(MSE)提供了最好的性能比较方法在许多评价指标。
生成对抗网络(甘斯)最初提出估计图像genearation领域生成模型。最近,它已被应用于语音增强领域发生器是用来预测清洁演讲或清洁演讲面具,和鉴别器作为敌对的组件估计的概率样本来自于训练数据[1]。
在对抗训练,G将学习一个映射从X到y的描绘GAN-based培训过程如下图所示。鉴频器D和发电机G交替训练。
甘卷积复发(CRGAN)结构。发电机估计t f面具。层之间的箭头表示跳过连接。估计目标t f面具,面具作为输入提供的鉴别器除了W-CRGAN所有提出的模型。
几种不同的损失函数评估GAN-based语音增强系统,包括:
结果增强系统(W-CRGAN R-CRGAN, Ra-CRGAN M-CRGAN表示我们提议CRGAN模型与瓦瑟斯坦,relativisitc, relativisitc平均和公制损失,分别)。最好的分数以粗体突出显示。(*表示之前报道的结果。)
引用:
完整的细节,请参考下面列出的纸。
阶段作为一个关键组件的言论,影响质量和清晰度。目前的语音增强算法开始解决相位失真,但算法关注听力正常(NH)听众。目前尚不清楚是否有利于增加阶段听力受损的(你好)听众。我们研究了相位失真对语音质量的影响通过听力学习,NH和嗨听众提供话音质量评级使用MUSHRA过程。演讲在一组条件下,混合着牙牙学语噪声在4种不同的信噪比(信噪比)从5到10 dB。在另一组的情况下,信噪比是固定在10 dB和吵闹的言论提出了在一个模拟的混响室与T60s女士从100年到1000年不等。演讲水平保持在65分贝为NH听众和放大应用嗨侦听器,以确保可听到。理想比掩蔽(IRM)被用来模拟语音增强。(即两个客观指标。,PESQ和HASQI)是利用比较主观和客观的评级。 Results indicate that phase distortion has a negative impact on perceived quality for both groups and PESQ is more closely correlated with human ratings.
许多现有的语音增强系统只有操作基于幅度谱图和维持吵闹的相位不变时将增强的语音转换为时域[1,2]。阶段对演讲很重要,但一般研究较少,研究集中在恢复阶段信息增强算法只专注于听力正常的听众。然而,有大量的人患有听力损失可以降低他们对时间的敏感性精细结构(TFS)暗示。因此,它可能会保留语音增强的相位信息可能不会导致同等程度的对你好听众相比NH听众。在这项研究中,我们调查是否听力受损的听众将受益于一个phase-aware语音增强系统和分析之间的关系从HASQI和PESQ主观评分和客观的分数。
不同程度的相位失真是应用于演讲材料(IEEE句子从一个女性说话)根据公式:
在美元\角s (t、f) _{\文本{扭曲}}$ t f域表示变形阶段;\α表示美元的相位畸变量从25%到100%不等;和\φ(t, f)美元代表随机相位扰动来自一个均匀分布在0和2 \π美元之间,单独为每个t f的位置。
听众主观评级提供刺激MUSHRA过程后,建议在ITU-R BS.1534 [3]
共有18个受试者招募,包括10 NH听众(4男性、6雌性,招募了来自印第安纳大学的本科生)和8嗨听众(3男性,5女性,平均年龄:68 (SD = 5.53美元))。雷竞技官方网站下载
听力考试有四个测试条件。在嘈杂的情况下,喋喋不休的言论刺激了噪声在4种不同的信噪比(信噪比),从5 dB 10 dB 5 dB的一步。Noisy-Enhanced条件,刺激在嘈杂的条件一样,除了进一步掩盖了他们的理想比面具(IRM)[1]在演讲。在混响情况下,语音和噪声之间的信噪比是固定在10 dB和刺激了模拟混响[4]。混响算法模拟房间的尺寸4 m \乘以4 m \美元美元3米(长度\乘以宽度\美元美元高度),声源是位于(2米,3.5米,2米),和侦听器位于(2米,1.5米,2米)。声速是假定为340 m / s。诸如混响时间(T60)是100年,200年、500年和1000年。Reverbrant-Enhanced条件,刺激在Reverbrant条件相同,除了他们进一步掩盖了IRM前演讲。注意,IRM在这种情况下只应用于噪声没有消除混响,类似于一个系统,不是训练有素的混响数据。
质量评级由正常和听力受损的听众在语音信号在不同条件(即。从左上的bot-right:(1)。吵,(2)Noisy-enhanced,(3)混响,(4)Reverberant-enhanced)。
听力受损的听众倾向于提供更高的评级相同的言语刺激,被背景噪声或混响,比NH听众。phase-insensitive增强后,嗨和NH听众可以区分相位失真的程度,仍在增强演讲,表明潜在好处相敏增强技术。可能的原因为他们注意到阶段扭曲:(1)他们有良好的TFS敏感性,或(2)TFS和相位信号重高质量任务相比识别任务。
引用:
以下文字为语音增强提供过去的项目信息。这个页面作为总结的方法和结果。详情,请查看下面引用的论文。您还可以查看上面的视频教授唐纳德·威廉姆森的概述的方法。
引用这些算法出版,请先参考参考以下涉及添加剂噪声语音增强,而后者参考反射的情况。
语音分离系统通常使用短时傅里叶变换(STFT)的嘈杂的言论,只和提高幅度谱而相位谱不变。这样做是因为有一个信念,语音增强的相位谱不重要。然而,最近的研究表明,相对于感知质量很重要,一些研究人员考虑大小和相位谱增强。我们提出一种监督单声道的语音分离方法,同时增强了大小和相位谱在复数域操作。我们的方法使用一个深层神经网络估计的真实和虚构的组件中定义的理想比面具复数域。我们报告结果为该方法分离和比较相关系统。该方法比其他方法提高当多个客观指标评估,包括话音质量的感知评价(PESQ),和一个听力考试,科目喜欢该方法至少有69%。
极坐标(即大小和相位)是常用的提高短时傅里叶变换(STFT)的嘈杂的演讲。在这种情况下,STFT的嘈杂的言论表示为产品的反应和复指数级的相位响应。数学,这是表示美元S_ {t、f} = | S_ {t、f} | e ^{我\ Theta_ {t、f}} $, $ S_ {t、f} $在哪里STFT,美元| S_ {t、f} |级响应是美元,美元\ Theta_ {t、f} $是相位响应,t是美元指数,f是频率美元指数。
作为一种替代方法使用极坐标,STFT在笛卡尔坐标可以表示,用复指数的扩张。这将导致以下表达式:$ S_ {t、f} = | S_ {t、f} | cos (\ Theta_ {t、f}) + i | S_ {t、f} |罪(\ Theta_ {t、f})美元。等式的右边的第一部分是表示真正的组件(例如S_r美元),而后者等式的右边表达式(不包括“我美元”)被表示为虚构的组件(例如S_i美元)。我们表示这个笛卡尔表示复数域。
STFT组件语音信号的极性和复杂的坐标是如上所示。注意相位响应随机出现,而大小,真实和虚构的组件具有清晰的结构。
我们的目标是获得一个复杂比面具,当应用于嘈杂的演讲的STFT,产生清洁的STFT的演讲。换句话说,我们想要找到一个复杂的面具,当multtplied噪声语音谱,结果在干净的语音频谱。在数学上,这是表示为:$ S_ {t、f} = M_ {t、f} \ * Y_ {t、f} $,在美元M_ {t、f} $表示我们想计算的面具。
重新安排的条款在上面的表达式中,我们注意到面具可以计算光谱的清洁和噪声语音信号(例如美元M_ {t、f} = S_ {t、f} / Y_ {t、f} $)。这个面具是复杂的,因此会有一个真正的和虚构的成分。这些组件,表示M_r M_i美元,美元可以直接计算的真实和虚构的成分sigals清洁和嘈杂的演讲。
这个面具是表示复杂的理想比面具(这个)。例子真实和虚构的成分纯净语音,嘈杂的言论及其cIRM如上所示。注意,它被认为是理想的,因为它假设纯净语音谱是可用的,在测试过程中,情况就不一样了。因此,这个必须估计为了增强在测试过程中发生。如下所示的深层神经网络(款)描述了如何cIRM估计从嘈杂的语音输入信号。这个款有三个隐藏层和一个输出层,分为部分。输出层的一部分是用于估计这个真正的组件,而另一部分估计这个虚构的组件。估计复杂的面具来标示的复杂比面具(cRM),因此它不再是理想。
在测试期间,估计面具应用于嘈杂的演讲的STFT,导致估计清洁演讲。
增强语音信号从不同的方法评估语音质量的感知评价(PESQ)。这些方法的平均PESQ值如下表所示,在更高的分数表明更好的性能。“cRM”表示该复杂比率掩蔽的方法。“混合”结合了演讲和四种不同的噪声(例如SSN,咖啡馆,牙牙学语,或工厂)。
SSN |
咖啡馆 |
呀呀学语 |
工厂 |
|
---|---|---|---|---|
混合物 |
1.86 |
1.78 |
1.88 |
1.73 |
RM |
2.31 |
2.16 |
2.34 |
2.23 |
cRM |
2.52 |
2.32 |
2.35 |
2.41 |
PSM |
2.44 |
2.23 |
2.41 |
2.33 |
热带病研究和培训特别规划 |
2.38 |
2.27 |
2.32 |
2.33 |
音频例子提出了cRM的方法如下。
例# 1:嘈杂的演讲
cRM的演讲
干净的演讲
例# 2:嘈杂的演讲
cRM的演讲
干净的演讲
例# 3:嘈杂的演讲
cRM的演讲
干净的演讲
除了客观的结果,我们进行了听力学习让人类被试对信号进行比较。每一对的信号,参与者被指示选择三个选项之一:信号优先,信号优先,或信号的质量大约是相同的。听众至少每个信号指示玩一次。+ 1的首选方法给出一个分数,另一个是−1分。0分都给信号,如果参与者认为,大约是相同的品质。
听力研究结果总结在下面的数据。偏好分数,这两个数据所示,表明cRM方法者优先至少69%的时间相比比较方法。
©2020追求研究小组。版权所有|设计W3layouts