監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機APP | 產(chǎn)品資料
X 關閉

淺析語音識別技術及其發(fā)展

申請免費試用、咨詢電話:400-8352-114

文章來源:泛普軟件

機器能聽懂人類的語言嗎?我們能扔掉鍵盤、鼠標用自然語言操縱計算機嗎?隨著語音識別技術的發(fā)展,夢想正在變?yōu)楝F(xiàn)實。

語音識別以語音為研究對象,它是語音信號處理的一個重要研究方向,是模式識別的一個分支,涉及到生理學、心理學、語言學、計算機科學以及信號處理等諸多領域,甚至還涉及到人的體態(tài)語言(如人在說話時的表情、手勢等行為動作可幫助對方理解),其最終目標是實現(xiàn)人與機器進行自然語言通信。

本文將簡要介紹語音識別的發(fā)展歷史,采用的關鍵技術,面臨的困難與挑戰(zhàn)以及廣闊的應用前景。

1 語音識別的發(fā)展歷史

語音識別的研究工作大約開始于50年代,當時AT& T Bell實驗室實現(xiàn)了第一個可識別十個英文數(shù)字的語音識別系統(tǒng) Audry系統(tǒng)。

60年代,計算機的應用推動了語音識別的發(fā)展。這時期的重要成果是提出了動態(tài)規(guī)劃(DP)和線性預測分析技術(LP),其中后者較好地解決了語音信號產(chǎn)生模型的問題,對語音識別的發(fā)展產(chǎn)生了深遠影響。

70年代,語音識別領域取得了突破。在理論上,LP技術得到進一步發(fā)展,動態(tài)時間歸正技術(DTW)基本成熟,特別是提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實踐上,實現(xiàn)了基于線性預測倒譜和DTW技術的特定人孤立語音識別系統(tǒng)。

80年代,語音識別研究進一步走向深入,其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(ANN)在語音識別中的成功應用。HMM模型的廣泛應用應歸功于AT& T Bell實驗室Rabiner等科學家的努力,他們把原本艱澀的HMM純數(shù)學模型工程化,從而為更多研究者了解和認識。ANN和HMM模型建立的語音識別系統(tǒng),性能相當。

進入90年代,隨著多媒體時代的來臨,迫切要求語音識別系統(tǒng)從實驗室走向?qū)嵱谩TS多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&T、NTT等著名公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。

我國語音識別研究工作一直緊跟國際水平,國家也很重視,并把大詞匯量語音識別的研究列入“863”計劃,由中科院聲學所、自動化所及北京大學等單位研究開發(fā)。鑒于中國未來龐大的市場,國外也非常重視漢語語音識別的研究。美國、新加坡等地聚集了一批來自大陸、臺灣、香港等地的學者,研究成果已達到相當高水平。因此,國內(nèi)除了要加強理論研究外,更要加快從實驗室演示系統(tǒng)到商品的轉化。

2  語音識別技術

首先介紹一下語音識別系統(tǒng)的分類方式及依據(jù)。

●根據(jù)對說話人說話方式的要求,可以分為孤立字(詞)語音識別系統(tǒng),連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。

●根據(jù)對說話人的依賴程度可以分為特定人和非特定人語音識別系統(tǒng)。

●根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。

不同的語音識別系統(tǒng),雖然具體實現(xiàn)細節(jié)有所不同,但所采用的基本技術相似,一個典型語音識別系統(tǒng)的實現(xiàn)過程如圖1所示。

圖1 語音識別的實現(xiàn)

語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取。

(1)語音識別單元的選取

選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務決定。

單詞(白)單元廣泛應用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜,難以滿足實時性要求。

音節(jié)單元多見于漢語語音識別,主要因為漢語是單音節(jié)結構的語言,而英語是多音節(jié),并且漢語雖然有大約1300個音節(jié),但若不考慮聲調(diào),約有408個無調(diào)音節(jié),數(shù)量相對較少。因此,對于中、大詞匯量漢語語音識別系統(tǒng)來說,以音節(jié)為識別單元基本是可行的。

音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。原因在于漢語音節(jié)僅由聲母(包括零聲母有22個)和韻母(共有28個)構成,且聲韻母聲學特性相差很大。實際應用中常把聲母依后續(xù)韻母的不同而構成細化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響,音素單元不穩(wěn)定,所以如何獲得穩(wěn)定的音素單元,還有待研究。

(2)特征參數(shù)提取技術

語音信號中含有豐富的信息,但如何從中提取出對語音識別有用的信息呢?特征提取就是完成這項工作,它對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,獲得影響語音識別的重要信息。對于非特定人語音識別來講,希望特征參數(shù)盡—可能多的反映語義信息,盡量減少說話人的個人信息(對特定人語音識別來講,則相反)。從信息論角度講,這是信息壓縮的過程。

線性預測(LP)分析技術是目前應用廣泛的特征參數(shù)提取技術,許多成功的應用系統(tǒng)都采用基于LP技術提取的倒譜參數(shù)。但線性預測模型是純數(shù)學模型,沒有考慮人類聽覺系統(tǒng)對語音的處理特點。

Mel參數(shù)和基于感知線性預測(PLP)分析提取的感知線性預測倒譜,在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的一些研究成果。實驗證明,采用這種技術,語音識別系統(tǒng)的性能有一定提高。

也有研究者嘗試把小波分析技術應用于特征提取,但目前性能難以與上述技術相比,有待進一步研究。

(3)模式匹配及模型訓練技術

模型訓練是指按照一定的準則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準則,使未知模式與模型庫中的某一個模型獲得最佳匹配。

語音識別所應用的模式匹配和模型訓練技術主要有動態(tài)時間歸正技術(DTW)、隱馬爾可夫模型(HMM)和人工神經(jīng)元網(wǎng)絡(ANN)。

DTW是較早的一種模式匹配和模型訓練技術,它應用動態(tài)規(guī)劃方法成功解決了語音信號特征參數(shù)序列比較時時長不等的難題,在孤立詞語音識別中獲得了良好性能。但因其不適合連續(xù)語音大詞匯量語音識別系統(tǒng),目前已被HMM模型和ANN替代。

HMM模型是語音信號時變特征的有參表示法。它由相互關聯(lián)的兩個隨機過程共同描述信號的統(tǒng)計特性,其中一個是隱蔽的(不可觀測的)具有有限狀態(tài)的Markor鏈,另一個是與Markor鏈的每一狀態(tài)相關聯(lián)的觀察矢量的隨機過程(可觀測的)。隱蔽Markor鏈的特征要靠可觀測到的信號特征揭示。這樣,語音等時變信號某一段的特征就由對應狀態(tài)觀察符號的隨機過程描述,而信號隨時間的變化由隱蔽Markor鏈的轉移概率描述。模型參數(shù)包括HMM拓撲結構、狀態(tài)轉移概率及描述觀察符號統(tǒng)計特性的一組隨機函數(shù)。按照隨機函數(shù)的特點,HMM模型可分為離散隱馬爾可夫模型(采用離散概率密度函數(shù),簡稱DHMM)和連續(xù)隱馬爾可夫模型(采用連續(xù)概率密度函數(shù),簡稱CHMM)以及半連續(xù)隱馬爾可夫模型(SCHMM,集DHMM和CHMM特點)。一般來講,在訓練數(shù)據(jù)足夠的,CHMM優(yōu)于DHMM和SCHMM。

HMM模型的訓練和識別都已研究出有效的算法,并不斷被完善,以增強HMM模型的魯棒性。

——人工神經(jīng)元網(wǎng)絡在語音識別中的應用是現(xiàn)在研究的又一熱點。ANN本質(zhì)上是一個自適應非線性動力學系統(tǒng),模擬了人類神經(jīng)元活動的原理,具有自學、聯(lián)想、對比、推理和概括能力。這些能力是HMM模型不具備的,但ANN又不個有HMM模型的動態(tài)時間歸正性能。因此,現(xiàn)在已有人研究如何把二者的優(yōu)點有機結合起來,從而提高整個模型的魯棒性。

3  語音識別的困難與對策

目前,研究工作進展緩慢,主要表現(xiàn)在理論上一直沒有突破。雖然各種新的修正方法不斷涌現(xiàn),但其普遍適用性都值得商榷。

具體來講,困難主要表現(xiàn)在:

●語音識別系統(tǒng)的適應性差,主要體現(xiàn)在對環(huán)境依賴性強,即在某種環(huán)境下采集到的語音訓練系統(tǒng)只能在這種環(huán)境下應用,否則系統(tǒng)性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便。

●高噪聲環(huán)境下語音識別進展困難,因為此時人的發(fā)音變化很大,像聲音變高,語速變慢,音調(diào)及共振峰變化等等,這就是所謂Lombard效應,必須尋找新的信號分析處理方法。

●語言學、生理學、心理學方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。而語言模型、語法及詞法模型在中、大詞匯量連續(xù)語音識別中是非常重要的。

●我們對人類的聽覺理解、知識積累和學習機制以及大腦神經(jīng)系統(tǒng)的控制機理等分面的認識還很不清楚;其次,把這方面的現(xiàn)有成果用于語音識別,還有一個艱難的過程。

●語音識別系統(tǒng)從實驗室演示系統(tǒng)到商品的轉化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關鍵詞(句)檢測技術(即從連續(xù)語音中去除諸如“啊”、“唉”等語音,獲得真正待識別的語音部分)等等技術細節(jié)要解決。

為了解決這些問題,研究人員提出了各種各樣的方法,如自適應訓練,基于最大互信息準則(MMI)和最小區(qū)別信息準則(MDI)的區(qū)別訓練和“矯正”訓練;應用人耳對語音信號的處理特點,分析提取特征參數(shù),應用人工神經(jīng)元網(wǎng)絡……所有這些努力都取得了一定成績。

不過,如果要使語音識別系統(tǒng)性能有大的提高,就要綜合應用語言學、心理學、生理學以及信號處理等各門學科有關知識,只用其中一種是不行的。

4  語音識別的應用

目前世界各國都加快了語音識別應用系統(tǒng)的研究開發(fā),并已有一些實用的語音識別系統(tǒng)投入商業(yè)運營。在美國語音識別系統(tǒng)的銷售額逐年上升,由于使用了語音識別系統(tǒng),為企業(yè)贏得了巨額收入。

比較典型而成功的語音識別系統(tǒng)有AT&T于1992年開發(fā)的VRCP系統(tǒng)。該系統(tǒng)是有五個單詞(collect,person,third number,operator和calling card)的非特定人小詞匯量語音識別系統(tǒng),現(xiàn)已應用于AT&T通信網(wǎng)上,可以實現(xiàn)自動話務員協(xié)助式呼叫,代替話務員完成五種呼叫類型,即

●collect call——受話人付費電話,命令字col1ect

●person-person-call——定人呼叫,命令字person

●third-party-billing-call——第三方付費電話,命令字third number

●operator-assisted call——話務員協(xié)助呼叫,命令字operator

●credit card call——信用卡呼叫,命令字calling card

為使用戶使用方便,系統(tǒng)配有語音提示告訴用戶如何使用。該系統(tǒng)所具有的關鍵詞檢測技術可從句子中查找到五個命令字中的一個,從而使用戶在講話時更加自然,如可以講“collect call please”,整個系統(tǒng)的正確識別率超過99%。

此外,已經(jīng)實用的系統(tǒng)還有AT & T 800語音識別服務系統(tǒng),NTT ANSER語音識別銀行服務系統(tǒng),Northen Telecom股票價格行情系統(tǒng),使得原本手工操作的工作用語音就可方便地完成。

從語音識別技術的發(fā)展可以看出,科學技術推動了社會發(fā)展,滿足人們的需求,社會需求也反過來推動科學技術發(fā)展。多媒體時代的來臨,迫切要求解決自動語音識別的難題,必然推動語音識別理論和應用研究的進展。估計在本世紀最后幾年至二十一世紀初,語音識別技術將會在理論上和應用上都取得突破性進展。到那時,我們將體會到語音識別帶來的種種便利。(CIO時代論壇)

發(fā)布:2007-04-21 13:55    編輯:泛普軟件 · xiaona    [打印此頁]    [關閉]
相關文章:
哈爾濱OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓

咨詢:400-8352-114

加微信,免費獲取試用系統(tǒng)

QQ在線咨詢

泛普哈爾濱OA軟件行業(yè)資訊其他應用

哈爾濱OA軟件 哈爾濱OA新聞動態(tài) 哈爾濱OA管理信息化 哈爾濱OA快博 哈爾濱OA軟件行業(yè)資訊 哈爾濱軟件開發(fā)公司 哈爾濱門禁系統(tǒng) 哈爾濱物業(yè)管理軟件 哈爾濱倉庫管理軟件 哈爾濱餐飲管理軟件 哈爾濱網(wǎng)站建設公司