基于MATLAB語譜圖的聲樂研究

來源：期刊VIP網(wǎng)所屬分類：計算機(jī)信息管理時間：瀏覽：次

　　摘要：語譜圖是一種在語音分析以及語音合成中具有重要實用價值的時頻圖，能反映出語音信號動態(tài)頻譜特征，被認(rèn)定是語音信號的可視語言。橫坐標(biāo)代表時間大小，縱坐標(biāo)代表頻率大小，時間和頻率所對應(yīng)的像素點的值表示能量值的大小。本文對一小段語音信號和音樂信號進(jìn)行處理，最終以語譜圖的形式展現(xiàn)出來，并通過對語譜圖的分析來判斷語音信號和音樂信號，檢測語音是否開始和結(jié)束，效果良好。這種方法容易區(qū)分語音信號中的有用聲段和噪聲聲段。實驗證明，純語音信號頻域能量和過零率變化要大于音樂信號。音樂信號較語音信號能量譜穩(wěn)定。

　　關(guān)鍵詞：語譜圖;語音分析;語音合成;短時能量;過零率

計算機(jī)工程期刊

　　推薦閱讀：發(fā)表人臉識別論文的計算機(jī)類期刊

　　1 引言(Introduction)

　　語音信號數(shù)字處理是一門涉及諸多學(xué)科的交叉學(xué)科，它以生理學(xué)、心理學(xué)、語音學(xué)和聲學(xué)等學(xué)科為基礎(chǔ)[1]。語譜圖的廣泛應(yīng)用研究，從而推動了語譜圖在生活中的利用，結(jié)合語譜圖的技術(shù)分析，讓其在聲紋鑒定、聾人語訓(xùn)、數(shù)字音頻水印、車型識別、語音合成，以及語音編碼等方面也具有研究意義。語音輸入人機(jī)交互手段，日漸成為智慧生活的一部分。

　　目前開設(shè)人工智能專業(yè)，研究語音交互的高校日益增多。越來越多人工智能產(chǎn)品問世，有代表性的是騰訊公司的微信，小米公司的米聊、百度公司的小度智能音箱和小米公司的小愛智能音箱。本文針對自然語音和音樂從頻域能量和過零率方面比較，并分析了語音和音樂語譜圖特征。

　　2 音頻信號處理(Audio signal processing)

　　語音信號采集處理：第一步將信號進(jìn)行采樣量化，第二步進(jìn)行預(yù)處理。

　　預(yù)處理步驟包括：預(yù)加重、加窗、分幀等。

　　在此項研究中，音頻是多媒體中的一種重要載體，聲音經(jīng)過模擬設(shè)備記錄或再生，成為模擬音頻，在經(jīng)數(shù)字化成為數(shù)字音頻。音頻分析就是以數(shù)字音頻信號為分析對象，以數(shù)字信號處理為分析手段，提取信號在時域、頻域內(nèi)一系列的過程。音頻測量一般包括信號電壓、頻率、信噪比、諧波失真等基本參數(shù)。

　　語譜圖的產(chǎn)生流程框圖如圖1所示。

　　2.1 音頻信號的預(yù)加重

　　從時頻域來看，漢明窗比矩形窗帶寬大兩倍。矩形窗的主瓣寬度小于漢明窗，頻譜分辨率高，然旁瓣峰值較大，容易頻譜泄露，造成高頻成分丟失。漢明窗比矩形窗顯得更平滑些，其旁瓣衰減明顯，更能反映信號時頻特性。

　　往往選擇窗函數(shù)還要看信號基音周期。一個語音幀正常包含1—7個基音周期。不同人的基音周期存在差異?；糁芷谧兓秶ǔＪ?—14ms，基音頻率變化范圍是500—700Hz，致使N的選擇比較困難。采樣頻率是10kHz時，N點取100—200點比較合適(即10—20ms持續(xù)時間)。

　　2.3 音頻信號的能量和過零率分析

　　短時能量用來分辨短時音頻信號中的清音和濁音，濁音和清音差別很大，容易區(qū)分;還可以界定有聲段和無聲段，以及聲母和韻母。語音識別中，短時能量也能代表語音信號的一些特征[8]。

　　從圖2和圖3可以看出語音部分的能量是整段語音中最高的部分。而語音部分又分為靜音段、清音段和濁音段三部分，從圖中可以明顯看出值小的是清音段，值大的是濁音段。短時能量可以用來區(qū)分語音的清音段和濁音段。語音中含有比音樂中更多的靜音，語音的能量變化比音樂中的大的多。

　　短時平均過零率代表一幀內(nèi)信號過零次數(shù)。連續(xù)信號，觀察其時域波形通過X軸次數(shù)即可。離散信號，觀察其信號采樣點符號的變化次數(shù)即可。

　　圖4為語音“西安工業(yè)大學(xué)”的短時平均過零率圖，圖5為小段音樂“darling”的短時平均過零率圖。

　　從圖4和圖5可以看出，語音信號和音樂信號不一樣的地方，其由發(fā)音的音節(jié)和不發(fā)音的音節(jié)交替組成。語音由于清濁音交替出現(xiàn)，過零率變化明顯比音樂激烈。

　　3 語譜圖生成和分析(Spectrogram generation and analysis)

　　本次設(shè)計利用Cool Edit Pro，普通立體聲麥克風(fēng)和筆記本電腦進(jìn)行錄音。設(shè)定采樣頻率8000Hz，幀長取100點，兩幀間距取100點，進(jìn)行16比特量化。經(jīng)過采樣之后，得到標(biāo)準(zhǔn)化數(shù)字語音信號。

　　此次錄入的語音信號“西安工業(yè)大學(xué)”文件名為xg.wav，截取音樂“darling”，將音樂保存文件名為darling.wav。

　　將音頻信號經(jīng)過前面一系列的處理之后，我們得到語音信號和音樂信號的語譜圖，分別如圖6和圖7所示。

　　從圖6和圖7得到，語音信號和純音樂歌曲信號相比，語音頻譜中峰值變化快，不穩(wěn)定。語譜圖橫軸代表時間，縱軸代表頻率，一個個像素點的值對應(yīng)于語音信號的能量密度值。采用二維平面示意三維信息，其能量值的大小用顏色來表示，顏色深，代表這個點的語音能量越強(qiáng)。渲圖效果越亮即此處能量越大。

　　觀察圖6可發(fā)現(xiàn)在彩色語譜圖中會間斷的出現(xiàn)空隙，這是因為人在說話的時候會有呼吸的交替，從而出現(xiàn)空隙，在圖7中，間隙很少出現(xiàn)，在音樂播放同時樂譜的伴奏是連續(xù)且不間斷地演奏從而很少會出現(xiàn)圖像中間隙的部分。

　　觀察圖6和圖7可以看出橫杠清楚的出現(xiàn)在圖中的摩擦亂紋，說明了此處語音的錄入出現(xiàn)了濁音。還有一些沒有規(guī)則的亂紋，這些條紋代表了語譜圖中具有和時間軸平行的橫條和與時間軸垂直的豎直條。其中，橫條的出現(xiàn)表示語音信號中的共振峰，對于豎直條而言，代表了語音信號基音的周期以及基音頻率等信息。

　　如果在連續(xù)的若干幀中，能量譜中的峰值[10]出現(xiàn)在頻域中相對穩(wěn)定的位置，則認(rèn)為這些音頻信號含有音樂成分。

　　4 結(jié)論(Conclusion)

　　語譜圖是一種可觀察信號特性的平面圖，通過分析音頻的產(chǎn)生原理可以觀察到聲源點的共振屬性和聲樂在自然界的特性。語譜圖用顏色深淺表示聲紋強(qiáng)度大小。顏色深在語譜圖中所占比重大，那么相應(yīng)影響人感知的效果要強(qiáng)烈得多。通過實驗分析，可以有效區(qū)分純音樂、背景音樂語音、純語音。這一過程在場景識別、語音識別、聲紋識別中起著關(guān)鍵性的作用。

　　參考文獻(xiàn)(References)

　　[1] Zhen Huang，Sabato Marco Siniscalchi，Chin-Hui Lee，et al.A unified approach to transfer learning of deep neural networks with applications to speaker adaptation in automatic speech recognition[J].Neurocomputing，2016(218)：448-459.

　　[2] Ivan Himawan，Petr Motlicek，David Imseng ，Sridha Sridharan，et al.Feature mapping using far-field microphones for distant speech recognition[J].Speech Communication，2016(83)：1-9.

　　[3] Foster R.Goss，Li Zhou，Scott G.Weiner，et al.Incidence of speech recognition errors in the emergency department[J].International Journal of Medical Informatics，2016(93)：70-73.

　　[4] 韓紀(jì)慶，張磊，鄭鐵然，等.語音信號處理[M].北京：清華大學(xué)出版社，2004：10-19.

　　[5] 白燕燕，胡曉霞，鄭三婷，等.基于聽覺特性的聲紋識別系統(tǒng)的研究[J].電子設(shè)計工程，2015，2(4)：86-91.

　　[6] 趙力.語音信號處理[M].北京：機(jī)械工業(yè)出版社，2003：43-51.

　　[7] 張峰，石現(xiàn)峰，張學(xué)智，等.數(shù)字信號處理原理及應(yīng)用[M].北京：電子工業(yè)出版社，2010：43-55.

　　[8] 李富強(qiáng)，萬紅，黃俊杰，等.基于MATLAB語譜圖的顯示與分析[J].微計算機(jī)信息，2005，21(103)：71-76.

　　[9] 白燕燕.基于聲紋識別的身份確認(rèn)系統(tǒng)的研究[D].西安工業(yè)大學(xué)，2012：16-21.

　　[10] 陳青，龔乾，張鳴，等.基于語譜圖的聲樂分析[J].微計算機(jī)信息(管控一體化)，2010，26(73)：6-8.

上一篇：智慧治理視角下科研院所信息化建設(shè)思考

下一篇：辦公自動化中信息安全管理體系及其實現(xiàn)

基于MATLAB語譜圖的聲樂研究

查看北核目錄大全及期刊首頁

更多計算機(jī)信息管理文章推薦

專題專項服務(wù)