跨庫語音情感識別若干關(guān)鍵技術(shù)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁數(shù)：147 大?。?2.76MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩146頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語音情感識別(Speech Emotion Recognition，SER)是目前情感計(jì)算、模式識別、信號處理和人機(jī)交互領(lǐng)域的熱門研究話題。SER的主要目的是對語音信號按照不同的情感進(jìn)行分類，比如“生氣”、“恐懼”、“厭惡”、“高興”等。在過去的幾年里，已經(jīng)提出了許多有效的方法來應(yīng)對SER中出現(xiàn)的問題。在各種研究方法中，大部分是集中在一個(gè)單一的語音數(shù)據(jù)庫上進(jìn)行的。然而，在許多實(shí)際應(yīng)用情況下，用于訓(xùn)練的語料庫與測試語料庫存在非常大的差異，

2、例如訓(xùn)練和測試數(shù)據(jù)庫來自兩種（或更多種）不同的語言、說話人、文化、分布方式、數(shù)據(jù)規(guī)模等。這就出現(xiàn)了一個(gè)重要的研究內(nèi)容:跨數(shù)據(jù)庫(Cross-corpus)的語音情感識別。由于SER的研究涉及特征提取、特征優(yōu)選、分類器改進(jìn)、特征融合等多個(gè)技術(shù)部分，因此本文根據(jù)其特點(diǎn)，針對跨數(shù)據(jù)庫語音情感識別相關(guān)的關(guān)鍵技術(shù)進(jìn)行研究。本研究主要內(nèi)容包括：
　?、裴槍鐜煺Z音情感特征優(yōu)選分類，提出了帶有無限成分?jǐn)?shù)的t分布混合模型(iSMM)。它可以直接對

3、多種語音情感樣本進(jìn)行有效的識別。與傳統(tǒng)的高斯混合模型(GMM)相比，基于混合t分布的語音情感模型能有效處理樣本特征空間中存在異常值的問題。首先，t分布混合模型對用于測試的非典型情感數(shù)據(jù)能夠保持魯棒性。其次，針對高維空間引起的數(shù)據(jù)高復(fù)雜度和訓(xùn)練樣本不足的問題，將全局隱空間加入情感模型。這種方法使樣本空間被劃分的成分?jǐn)?shù)量為無限，形成一個(gè)iSMM情感模型。此外，該模型可以自動(dòng)確定最佳的成分?jǐn)?shù)量，同時(shí)滿足低復(fù)雜性，進(jìn)而完成多種情感特征數(shù)據(jù)的分類

4、。為驗(yàn)證所提出的iSMM模型對于不同情感特征分布空間的識別效果，本文在3個(gè)數(shù)據(jù)庫上進(jìn)行仿真實(shí)驗(yàn)，分別是:表演型語料庫DES、EMO-DB和自發(fā)型語料庫FAU。它們都是通用的語音情感數(shù)據(jù)庫，且具有高維特征樣本和不同的空間分布。在這種實(shí)驗(yàn)條件下，驗(yàn)證了各個(gè)模型對于特征異常值和高維數(shù)據(jù)的優(yōu)選效果以及模型本身的泛化性。結(jié)果顯示iSMM相比其它對比模型，保持了更穩(wěn)定的識別性能。因此說明本文提出的基于無限t分布的情感模型，在處理不同來源的語音數(shù)據(jù)時(shí)

5、具有較好的魯棒性，且對帶有離群值的高維情感特征具有良好的優(yōu)選識別能力。
　?、平Y(jié)合K近鄰、核學(xué)習(xí)方法、特征線重心法和LDA算法，提出了用于情感識別的LDA+kernel-KNNFLC方法。首先針對過大的先驗(yàn)樣本特征數(shù)目造成的計(jì)算量龐大問題，采用重心準(zhǔn)則學(xué)習(xí)樣本距離，改進(jìn)了核學(xué)習(xí)的K近鄰方法;然后加入LDA對情感特征向量優(yōu)化，在避免維度冗余的情況下，更好的保證了類間情感信息識別的穩(wěn)定性。對于跨庫領(lǐng)域的研究，關(guān)注了獨(dú)立數(shù)據(jù)庫中不同類別

6、間邊界擬合度過高導(dǎo)致的識別性能差異;通過對特征空間再學(xué)習(xí)，所提出的分類方法優(yōu)化了情感特征向量的類間區(qū)分度，適合于不同語料來源的情感特征分類。在包含高維全局統(tǒng)計(jì)特征的兩個(gè)語音情感數(shù)據(jù)庫上進(jìn)行了仿真實(shí)驗(yàn)。通過降維方案、情感分類器和維度參數(shù)進(jìn)行多組實(shí)驗(yàn)對比分析，結(jié)果表明:LDA+kernel-KNNFLC方法在同條件下識別性能有顯著提升，具有相對穩(wěn)定的情感類別間分類能力。
　　⑶針對跨庫條件下情感特征類別的改進(jìn)（擴(kuò)充）研究，提出了基于聽

7、覺注意模型的語譜圖特征提取方法。模型模擬入耳聽覺特性，能有效探測語譜圖上變化的情感特征。同時(shí)，利用時(shí)頻原子對模型進(jìn)行改進(jìn)，取得頻率特性信號匹配的優(yōu)勢，從時(shí)域上提取情感信息。在語音情感識別技術(shù)中，由于噪聲環(huán)境、說話方式和說話人特質(zhì)等原因，會(huì)造成特征空間分布不匹配的情況。從語音學(xué)上分析，該問題多存在于跨數(shù)據(jù)庫情感識別任務(wù)中。訓(xùn)練的聲學(xué)模型和用于測試的語句樣本之間的錯(cuò)位，會(huì)使語音情感識別性能急劇下降。語譜圖的特征能從圖像的角度對現(xiàn)有情感特征進(jìn)

8、行有效的補(bǔ)充。聽覺注意機(jī)制使模型能提取跨語音數(shù)據(jù)庫中的顯著性特征，提高語音情感識別系統(tǒng)的情感辨識能力。仿真實(shí)驗(yàn)部分利用文章所提出的方法在跨庫情感樣本上進(jìn)行特征提取，再通過典型的分類器進(jìn)行識別。結(jié)果顯示:與國際通用的標(biāo)準(zhǔn)方法相比，語譜圖情感特征的識別性能提高了約9個(gè)百分點(diǎn)，從而驗(yàn)證了該方法對不同數(shù)據(jù)庫具有更好的魯棒性。
　?、壤蒙疃葘W(xué)習(xí)領(lǐng)域的深度信念模型，提出了基于深度信念網(wǎng)絡(luò)的特征層融合方法。將語音頻譜圖中隱含的情感信息作為圖像

9、特征，與傳統(tǒng)聲學(xué)情感特征融合。研究解決了跨數(shù)據(jù)庫語音情感識別中，將不同尺度上提取的情感特征相結(jié)合的技術(shù)難點(diǎn)。利用STB/Itti模型對語譜圖進(jìn)行分析，從顏色、亮度、方向三個(gè)角度出發(fā)提取語譜圖特征;然后研究改進(jìn)了DBN網(wǎng)絡(luò)模型，并利用其對傳統(tǒng)聲學(xué)特征與語譜圖特征進(jìn)行了特征層融合，擴(kuò)充了特征子集的尺度，提升了情感表征能力。通過在ABC數(shù)據(jù)庫和多個(gè)中文數(shù)據(jù)庫上的實(shí)驗(yàn)驗(yàn)證，特征融合后的新特征子集相比傳統(tǒng)的語音情感特征，其跨數(shù)據(jù)庫識別性能獲得了明

10、顯提升。
　?、裳芯苛擞煽鐢?shù)據(jù)庫條件下不同語言的使用和大量非特定說話人引起的SER模型特征自適應(yīng)問題。根據(jù)前面章節(jié)所介紹的跨庫語音情感識別的內(nèi)容，對特征參數(shù)失真、語譜圖特征構(gòu)造、建模算法對比、在線優(yōu)化等方面進(jìn)行了自適應(yīng)相關(guān)的研究，并對具體的實(shí)驗(yàn)性能進(jìn)行了比較分析。首先，討論了現(xiàn)有的語音情感識別自適應(yīng)方法。然后，對于跨庫的情況，進(jìn)一步研究了自適應(yīng)說話人加性特征失真的情況，并給出模型方案。接著，為研究多說話人自適應(yīng)問題給SER系統(tǒng)帶來

11、的影響，對其過程進(jìn)行建模，將高斯混合模型與學(xué)生t分布模型兩種統(tǒng)計(jì)方法進(jìn)行對比討論。再分別利用各自適應(yīng)方案來獲取包括語譜圖特征在內(nèi)的特征函數(shù)集。此外，還使用了一些在線數(shù)據(jù)對特征函數(shù)進(jìn)行了快速優(yōu)化。最后，在四種不同語言的數(shù)據(jù)庫上（包括:德語、英語、中文和越南語）驗(yàn)證了各自適應(yīng)方案的有效性。實(shí)驗(yàn)結(jié)果表明:改進(jìn)的自適應(yīng)方案具有良好的說話人特征自適應(yīng)效果，尤其在處理大量未知說話人的情況下顯示了較好的模型參數(shù)遷移能力。此外，對于由跨數(shù)據(jù)庫中不同語言

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

跨庫語音情感識別若干關(guān)鍵技術(shù)研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

跨庫語音情感識別若干關(guān)鍵技術(shù)研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載