關(guān)鍵詞:喉振傳聲器 語音盲增強(qiáng) 遞歸神經(jīng)網(wǎng)絡(luò) 長(zhǎng)短時(shí)記憶 非負(fù)矩陣分解
摘要:喉振傳聲器以其優(yōu)良的抗噪聲特性已在多種強(qiáng)噪聲場(chǎng)景中得到應(yīng)用,但其產(chǎn)生的語音尚存在著中頻成份厚重、高頻成份缺失等問題,嚴(yán)重影響了語音的清晰度和可懂度。為改善喉振傳聲器的語音質(zhì)量,本文提出了一種基于長(zhǎng)短時(shí)記憶遞歸神經(jīng)網(wǎng)絡(luò)(Long short term memory recurrent neuralnetworks,LSTM-RNN)的喉振傳聲器語音盲增強(qiáng)算法。與基于低維的譜包絡(luò)特征估計(jì)算法不同,該算法首先利用LSTM-RNN對(duì)喉振傳聲器語音與空氣傳導(dǎo)語音的高維對(duì)數(shù)幅度譜之間的轉(zhuǎn)換關(guān)系進(jìn)行建模,能有效捕捉上下文信息實(shí)現(xiàn)語音幅度譜的重構(gòu),然后采用非負(fù)矩陣分解(Non-negative matrixfactorization,NMF)對(duì)估計(jì)出的語音幅度譜進(jìn)行處理,有效抑制了過平滑問題,進(jìn)一步提高了語音質(zhì)量。仿真實(shí)驗(yàn)得到的LLR,LSD,PESQ性能指標(biāo)表明,該算法可有效改善喉振傳聲器的語音質(zhì)量。
數(shù)據(jù)采集與處理雜志要求:
{1}基金項(xiàng)目:如果論文是項(xiàng)目成果,請(qǐng)按“項(xiàng)目名稱(項(xiàng)目號(hào))”的形式寫出。項(xiàng)目名稱與項(xiàng)目號(hào)兩者都要有。
{2}稿件應(yīng)具有科學(xué)性、創(chuàng)新性和實(shí)用性,論點(diǎn)明確、論據(jù)可靠、數(shù)據(jù)準(zhǔn)確、邏輯嚴(yán)謹(jǐn)、文字通順。
{3}文中圖表或插圖請(qǐng)附清晰的原圖文件(tif. 或eps.格式,不低于600 像素)。
{4}注釋是對(duì)論文中某一特定內(nèi)容的解釋或補(bǔ)充說明,用帶圈數(shù)字注于當(dāng)頁頁腳。
{5}稿件文字、標(biāo)點(diǎn)、年代、數(shù)字等書寫方式均以國(guó)家有關(guān)規(guī)定為準(zhǔn)。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社