融合AP和GMM的說話人識別方法研究.pdf_第1頁
已閱讀1頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、說話人識別又被稱作聲紋識別,是生物識別研究的一個重要方向。近年來,隨著生物技術和信息技術的高速發(fā)展,語音識別技術也日漸成熟并逐步得到普及,使得用語音與計算機之間的交流也成為了一種現實。在此過程中,用于研究說話人識別的理論和算法也在不斷提出和改進。其中,高斯混合模型(GMM)由于其識別性能良好、方法簡單和復雜度小,在目前說話人識別領域中應用最為廣泛。經典的GMM在對每個說話人建立模型時,其混合階數K與具體應用有關,通常由人根據實驗結果給定

2、,因此具有一定的隨意性。針對在說話人識別過程中,經典的GMM混合階數的確定具有一定隨意性的問題,本文提出采用吸引子傳播聚類方法(AP聚類)自動獲取GMM的階數,進而實現說話人識別的方法。這個方法避免了人為實驗摸索去獲得GMM的混合階數,顯著提高了說話人識別的精度和效率。
  本文首先介紹了說話人識別的相關背景知識,以及其研究的意義;分析了說話人識別的研究現狀、發(fā)展趨勢以及存在問題。其次詳細闡述了語音信號的預處理和特征提取的過程。其

3、中,語音信號的預處理過程主要包括語音采樣、數字化、預加重、分幀加窗和端點檢測。然后介紹了語音信號特征參數的分類,并分析了線性預測系數(LPC)、線性預測倒譜參數(LPCC)、梅爾頻率倒譜系數(MFCC)三種常用的特征參數的優(yōu)缺點。第三,對說話人識別模型的建立進行了深入研究,詳細闡述了矢量量化模型(VQ)、隱馬爾可夫模型(HMM)和高斯混合模型(GMM)等常用建模方法的基本原理。第四,給出了說話人識別系統(tǒng)的設計流程圖。然后,詳細介紹了AP

4、(AffinityPropagation,吸引子傳播)聚類算法基本原理,并給出了利用AP聚類算法自動獲取GMM混合階數的具體實現過程。首先,采用Mel頻率倒譜系數法(MFCC)與差分倒譜相結合的方法,提取語音特征參數;其次,采用吸引子傳播聚類方法(AP聚類)對語音特征參數進行聚類處理,從而自動獲得GMM的階數;在此基礎上進行GMM模型的訓練。第五,對模型進行了實驗并對實驗結果進行了分析。本文采用訓練好的GMM模型對Timit標準語音庫以

5、及自制網絡志愿者語音庫進行說話人識別測試實驗,通過實驗來驗證AP聚類的有效性和得到的GMM混合階數K的合理性。實驗結果顯示,經典的GMM階數K為32和由AP聚類算法獲得階數K,兩種方法的識別時間分別為0.06s和0.09s,識別準確率分別為90.4%和97.6%。實驗結果表明,比起通過實驗探索再憑經驗值選取混合階數K的方法,采用AP聚類算法自動獲取GMM混合階數K,可以在識別時間大致相同情況下得到更優(yōu)的識別效果。也就是說,引入AP聚類自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論