語音識別的翻譯_第1頁
已閱讀1頁,還剩5頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、自然話語識別的字典自然話語識別的字典學習學習斯諾波達,亞力懷貝爾互動系統(tǒng)實驗室斯諾波達,亞力懷貝爾互動系統(tǒng)實驗室卡爾斯魯厄大學卡爾斯魯厄大學卡爾斯魯厄,德國卡爾斯魯厄,德國卡耐基梅隆大學卡耐基梅隆大學匹茲堡,美國匹茲堡,美國摘要摘要自然語音給語音識別增加了新任務:端點檢測,人類和非人類的噪聲,新詞和其他非正常發(fā)音。當將一個語音識別系統(tǒng)應用于自然語音時,所有這些現(xiàn)象都需要解決。在本文中,我們將關注如何自動的將語音詞典擴展和應用到自然語音識

2、別。特別對于自然語音而言,重要的根據語音在數據庫中出現(xiàn)的頻率,而非詞匯中的“正確”發(fā)音來選擇一個單詞的讀音。因此,我們提出了一個數據加載方法,通過模擬數據庫中已給出的單詞把新的發(fā)音添加到已有的語音詞典中。我們將展示這種程序將如何造出其他發(fā)音元組,以及一些經常被錯誤識別的單詞。我們還將討論如何通過語音識別系統(tǒng)歸納已找到的發(fā)音,將知識進一步的整合到語音識別系統(tǒng)中。GSST已經利用JANUS2語音識別引擎和卡耐基梅隆大學與卡爾斯魯厄大學的交互

3、系統(tǒng)實驗室的自然語音翻譯進行了試驗。1.引言引言對一個語音識別系統(tǒng)而言,語音字典是主要的知識來源之一,這保證了語音識別過程中假定的有效性。不過與聲音模擬或者語言模擬相比,它往往被認為不太重要。在連續(xù)語音識別系統(tǒng)中,研究人員經常使用一個單詞的“正確”發(fā)音,譬如這個發(fā)音可以在詞典中找到。但是,這種“正確”的發(fā)音,對于一個已給的任務(尤其是自然語音),往往不是最常見的變異的讀法,并且,考慮到目前的聲音模擬,這種“正確”的發(fā)音也不一定能帶來最好

4、的語音識別表現(xiàn)。如果字典中的音標與數據庫中實際情況不匹配,在聲學不足的訓練過程中,語音單位將被損壞,而這將降低整體性能。國家文藝語音識別系統(tǒng)開始投入更多的努力來制作帶有變異讀音和縮略詞的字典,這些詞典同樣能模擬替代發(fā)音,如協(xié)同構音詞。當我們想要提高語音識別系統(tǒng)的整體性能時,我們特別感興趣的是給定任務的最常見發(fā)音,更好的模擬常被錯誤識別的單詞以及有著強烈的方言變異的單詞順序。我們將展示程序如何學習單詞的發(fā)音,從而學習例如協(xié)同詞那樣的替代發(fā)

5、音效果,單詞的方言變異和單詞順序。2.字典字典學習學習通常是通過手工或利用語音規(guī)則來修改字典。手工調整和修改,需要一個字典專家。尤其是當任務在不斷增加或者系統(tǒng)要用于新的任務,將有大量的新單詞添加到詞典中,這將費時又費力。手工添加詞典的條目通常關注單個單詞的出現(xiàn),并沒有改善整體的識別性能。此外,這還容易出錯。所有下面的錯誤都可能在手工修改時引入語音字典。隨著基本的語音單位的增加(通常介于40至100之間)和字典中的條目數的增加,在詞典條目

6、間持續(xù)應用語音單位將變得越來越困難。專家傾向于使用“正確”的單詞發(fā)音,而對于一個已給定的任務來說,這往往并不是使用最頻繁,甚至不是最可能的發(fā)音。實際發(fā)音和“正確”的發(fā)音可能很不一樣。在自然語音和方言中有大量的替代發(fā)音,而這些往往不易預測。外國文字和名稱的發(fā)音就是很好的例子。8.識別再培訓的語音時候,允許在訓練時使用多個發(fā)音。9.可選步驟的糾正音素訓練可被演示。10.在驗證設置上對識別結果和修改后的識別字典進行測試。11.將所有的新變種創(chuàng)

7、建成一個新的音素語音模型平滑識別器。12.可選的第二個方案:在步驟5中,音素矩陣是用來拒絕混淆該識別器的音素變體之間的變種,因此會導致錯誤的訓練。(例如:如果拒絕變異德語單詞“dann”,因為音素N和M是高度易混淆的)。在語音單位上這將進一步避免潛在污染。第8步更準確的訓練數據和更好的把握語音單位。在第11步,新的音素語音模型采用統(tǒng)計知識(類似于語音規(guī)則)對已經觀察到音素序列進行計算,并在下一次使用這種算法應用。4.實驗設定實驗設定4.

8、1數據庫和基準系統(tǒng)數據庫和基準系統(tǒng)這個文件里的所有實驗在德國的數據庫稱為德國自發(fā)性調度任務,它被收集作為VERBMOBIL項目的一部分。在這里人與人自發(fā)的對話被收集在德國四個不同的網站上。兩個人被給予各種各樣不同的約定,必須找到一個適合他們的時段。測試詞匯包含了超過3300個條目。訓練測試對話6088話語10735110詞2811602346詞匯量5442543表1GSST數據庫對于這個實驗,我們采用JANUS2的混合LVQHMM識別器

9、,我們自發(fā)的語音到語音翻譯系統(tǒng),采用包括噪聲模型的69個獨立的音素語音模型。4.2實驗實驗在我們第一組實驗中,我們用反復訓練進行了上一節(jié)所述所有步驟。表2總結了第一批成果和它們與基線系統(tǒng)不使用替代發(fā)音的比較。在實驗A1中,我們生成了在字典中不影響同音字的替代發(fā)音。在實驗A2中,我們使用額外音素矩陣拒絕變種,它是易混淆識別的。對于第二套實驗,我們稍微的改善了基線系統(tǒng)。表3總結反復培訓后的結果和不使用其他發(fā)音與基線系統(tǒng)B的比較。在實驗B1中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論