跨庫語音情感識別若干關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩146頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、語音情感識別(Speech Emotion Recognition,SER)是目前情感計(jì)算、模式識別、信號處理和人機(jī)交互領(lǐng)域的熱門研究話題。SER的主要目的是對語音信號按照不同的情感進(jìn)行分類,比如“生氣”、“恐懼”、“厭惡”、“高興”等。在過去的幾年里,已經(jīng)提出了許多有效的方法來應(yīng)對SER中出現(xiàn)的問題。在各種研究方法中,大部分是集中在一個(gè)單一的語音數(shù)據(jù)庫上進(jìn)行的。然而,在許多實(shí)際應(yīng)用情況下,用于訓(xùn)練的語料庫與測試語料庫存在非常大的差異,

2、例如訓(xùn)練和測試數(shù)據(jù)庫來自兩種(或更多種)不同的語言、說話人、文化、分布方式、數(shù)據(jù)規(guī)模等。這就出現(xiàn)了一個(gè)重要的研究內(nèi)容:跨數(shù)據(jù)庫(Cross-corpus)的語音情感識別。由于SER的研究涉及特征提取、特征優(yōu)選、分類器改進(jìn)、特征融合等多個(gè)技術(shù)部分,因此本文根據(jù)其特點(diǎn),針對跨數(shù)據(jù)庫語音情感識別相關(guān)的關(guān)鍵技術(shù)進(jìn)行研究。本研究主要內(nèi)容包括:
 ?、裴槍鐜煺Z音情感特征優(yōu)選分類,提出了帶有無限成分?jǐn)?shù)的t分布混合模型(iSMM)。它可以直接對

3、多種語音情感樣本進(jìn)行有效的識別。與傳統(tǒng)的高斯混合模型(GMM)相比,基于混合t分布的語音情感模型能有效處理樣本特征空間中存在異常值的問題。首先,t分布混合模型對用于測試的非典型情感數(shù)據(jù)能夠保持魯棒性。其次,針對高維空間引起的數(shù)據(jù)高復(fù)雜度和訓(xùn)練樣本不足的問題,將全局隱空間加入情感模型。這種方法使樣本空間被劃分的成分?jǐn)?shù)量為無限,形成一個(gè)iSMM情感模型。此外,該模型可以自動(dòng)確定最佳的成分?jǐn)?shù)量,同時(shí)滿足低復(fù)雜性,進(jìn)而完成多種情感特征數(shù)據(jù)的分類

4、。為驗(yàn)證所提出的iSMM模型對于不同情感特征分布空間的識別效果,本文在3個(gè)數(shù)據(jù)庫上進(jìn)行仿真實(shí)驗(yàn),分別是:表演型語料庫DES、EMO-DB和自發(fā)型語料庫FAU。它們都是通用的語音情感數(shù)據(jù)庫,且具有高維特征樣本和不同的空間分布。在這種實(shí)驗(yàn)條件下,驗(yàn)證了各個(gè)模型對于特征異常值和高維數(shù)據(jù)的優(yōu)選效果以及模型本身的泛化性。結(jié)果顯示iSMM相比其它對比模型,保持了更穩(wěn)定的識別性能。因此說明本文提出的基于無限t分布的情感模型,在處理不同來源的語音數(shù)據(jù)時(shí)

5、具有較好的魯棒性,且對帶有離群值的高維情感特征具有良好的優(yōu)選識別能力。
 ?、平Y(jié)合K近鄰、核學(xué)習(xí)方法、特征線重心法和LDA算法,提出了用于情感識別的LDA+kernel-KNNFLC方法。首先針對過大的先驗(yàn)樣本特征數(shù)目造成的計(jì)算量龐大問題,采用重心準(zhǔn)則學(xué)習(xí)樣本距離,改進(jìn)了核學(xué)習(xí)的K近鄰方法;然后加入LDA對情感特征向量優(yōu)化,在避免維度冗余的情況下,更好的保證了類間情感信息識別的穩(wěn)定性。對于跨庫領(lǐng)域的研究,關(guān)注了獨(dú)立數(shù)據(jù)庫中不同類別

6、間邊界擬合度過高導(dǎo)致的識別性能差異;通過對特征空間再學(xué)習(xí),所提出的分類方法優(yōu)化了情感特征向量的類間區(qū)分度,適合于不同語料來源的情感特征分類。在包含高維全局統(tǒng)計(jì)特征的兩個(gè)語音情感數(shù)據(jù)庫上進(jìn)行了仿真實(shí)驗(yàn)。通過降維方案、情感分類器和維度參數(shù)進(jìn)行多組實(shí)驗(yàn)對比分析,結(jié)果表明:LDA+kernel-KNNFLC方法在同條件下識別性能有顯著提升,具有相對穩(wěn)定的情感類別間分類能力。
  ⑶針對跨庫條件下情感特征類別的改進(jìn)(擴(kuò)充)研究,提出了基于聽

7、覺注意模型的語譜圖特征提取方法。模型模擬入耳聽覺特性,能有效探測語譜圖上變化的情感特征。同時(shí),利用時(shí)頻原子對模型進(jìn)行改進(jìn),取得頻率特性信號匹配的優(yōu)勢,從時(shí)域上提取情感信息。在語音情感識別技術(shù)中,由于噪聲環(huán)境、說話方式和說話人特質(zhì)等原因,會(huì)造成特征空間分布不匹配的情況。從語音學(xué)上分析,該問題多存在于跨數(shù)據(jù)庫情感識別任務(wù)中。訓(xùn)練的聲學(xué)模型和用于測試的語句樣本之間的錯(cuò)位,會(huì)使語音情感識別性能急劇下降。語譜圖的特征能從圖像的角度對現(xiàn)有情感特征進(jìn)

8、行有效的補(bǔ)充。聽覺注意機(jī)制使模型能提取跨語音數(shù)據(jù)庫中的顯著性特征,提高語音情感識別系統(tǒng)的情感辨識能力。仿真實(shí)驗(yàn)部分利用文章所提出的方法在跨庫情感樣本上進(jìn)行特征提取,再通過典型的分類器進(jìn)行識別。結(jié)果顯示:與國際通用的標(biāo)準(zhǔn)方法相比,語譜圖情感特征的識別性能提高了約9個(gè)百分點(diǎn),從而驗(yàn)證了該方法對不同數(shù)據(jù)庫具有更好的魯棒性。
 ?、壤蒙疃葘W(xué)習(xí)領(lǐng)域的深度信念模型,提出了基于深度信念網(wǎng)絡(luò)的特征層融合方法。將語音頻譜圖中隱含的情感信息作為圖像

9、特征,與傳統(tǒng)聲學(xué)情感特征融合。研究解決了跨數(shù)據(jù)庫語音情感識別中,將不同尺度上提取的情感特征相結(jié)合的技術(shù)難點(diǎn)。利用STB/Itti模型對語譜圖進(jìn)行分析,從顏色、亮度、方向三個(gè)角度出發(fā)提取語譜圖特征;然后研究改進(jìn)了DBN網(wǎng)絡(luò)模型,并利用其對傳統(tǒng)聲學(xué)特征與語譜圖特征進(jìn)行了特征層融合,擴(kuò)充了特征子集的尺度,提升了情感表征能力。通過在ABC數(shù)據(jù)庫和多個(gè)中文數(shù)據(jù)庫上的實(shí)驗(yàn)驗(yàn)證,特征融合后的新特征子集相比傳統(tǒng)的語音情感特征,其跨數(shù)據(jù)庫識別性能獲得了明

10、顯提升。
 ?、裳芯苛擞煽鐢?shù)據(jù)庫條件下不同語言的使用和大量非特定說話人引起的SER模型特征自適應(yīng)問題。根據(jù)前面章節(jié)所介紹的跨庫語音情感識別的內(nèi)容,對特征參數(shù)失真、語譜圖特征構(gòu)造、建模算法對比、在線優(yōu)化等方面進(jìn)行了自適應(yīng)相關(guān)的研究,并對具體的實(shí)驗(yàn)性能進(jìn)行了比較分析。首先,討論了現(xiàn)有的語音情感識別自適應(yīng)方法。然后,對于跨庫的情況,進(jìn)一步研究了自適應(yīng)說話人加性特征失真的情況,并給出模型方案。接著,為研究多說話人自適應(yīng)問題給SER系統(tǒng)帶來

11、的影響,對其過程進(jìn)行建模,將高斯混合模型與學(xué)生t分布模型兩種統(tǒng)計(jì)方法進(jìn)行對比討論。再分別利用各自適應(yīng)方案來獲取包括語譜圖特征在內(nèi)的特征函數(shù)集。此外,還使用了一些在線數(shù)據(jù)對特征函數(shù)進(jìn)行了快速優(yōu)化。最后,在四種不同語言的數(shù)據(jù)庫上(包括:德語、英語、中文和越南語)驗(yàn)證了各自適應(yīng)方案的有效性。實(shí)驗(yàn)結(jié)果表明:改進(jìn)的自適應(yīng)方案具有良好的說話人特征自適應(yīng)效果,尤其在處理大量未知說話人的情況下顯示了較好的模型參數(shù)遷移能力。此外,對于由跨數(shù)據(jù)庫中不同語言

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論