哈爾濱OA軟件行業(yè)資訊

當(dāng)前位置：工程項(xiàng)目OA系統(tǒng) > 泛普各地 > 黑龍江OA系統(tǒng) > 哈爾濱OA系統(tǒng) > 哈爾濱OA軟件行業(yè)資訊

淺析語(yǔ)音識(shí)別技術(shù)及其發(fā)展

文章來(lái)源：泛普軟件

機(jī)器能聽懂人類的語(yǔ)言嗎？我們能扔掉鍵盤、鼠標(biāo)用自然語(yǔ)言操縱計(jì)算機(jī)嗎？隨著語(yǔ)音識(shí)別技術(shù)的發(fā)展，夢(mèng)想正在變?yōu)楝F(xiàn)實(shí)。

語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象，它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向，是模式識(shí)別的一個(gè)分支，涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域，甚至還涉及到人的體態(tài)語(yǔ)言（如人在說(shuō)話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解），其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信。

本文將簡(jiǎn)要介紹語(yǔ)音識(shí)別的發(fā)展歷史，采用的關(guān)鍵技術(shù)，面臨的困難與挑戰(zhàn)以及廣闊的應(yīng)用前景。

1 語(yǔ)音識(shí)別的發(fā)展歷史

語(yǔ)音識(shí)別的研究工作大約開始于50年代，當(dāng)時(shí)AT& T Bell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng) Audry系統(tǒng)。

60年代，計(jì)算機(jī)的應(yīng)用推動(dòng)了語(yǔ)音識(shí)別的發(fā)展。這時(shí)期的重要成果是提出了動(dòng)態(tài)規(guī)劃（DP）和線性預(yù)測(cè)分析技術(shù)（LP），其中后者較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型的問題，對(duì)語(yǔ)音識(shí)別的發(fā)展產(chǎn)生了深遠(yuǎn)影響。

70年代，語(yǔ)音識(shí)別領(lǐng)域取得了突破。在理論上，LP技術(shù)得到進(jìn)一步發(fā)展，動(dòng)態(tài)時(shí)間歸正技術(shù)（DTW）基本成熟，特別是提出了矢量量化（VQ）和隱馬爾可夫模型（HMM）理論。在實(shí)踐上，實(shí)現(xiàn)了基于線性預(yù)測(cè)倒譜和DTW技術(shù)的特定人孤立語(yǔ)音識(shí)別系統(tǒng)。

80年代，語(yǔ)音識(shí)別研究進(jìn)一步走向深入，其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(luò)（ANN）在語(yǔ)音識(shí)別中的成功應(yīng)用。HMM模型的廣泛應(yīng)用應(yīng)歸功于AT＆ T Bell實(shí)驗(yàn)室Rabiner等科學(xué)家的努力，他們把原本艱澀的HMM純數(shù)學(xué)模型工程化，從而為更多研究者了解和認(rèn)識(shí)。ANN和HMM模型建立的語(yǔ)音識(shí)別系統(tǒng)，性能相當(dāng)。

進(jìn)入90年代，隨著多媒體時(shí)代的來(lái)臨，迫切要求語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嵱?。許多發(fā)達(dá)國(guó)家如美國(guó)、日本、韓國(guó)以及IBM、Apple、AT＆T、NTT等著名公司都為語(yǔ)音識(shí)別系統(tǒng)的實(shí)用化開發(fā)研究投以巨資。

我國(guó)語(yǔ)音識(shí)別研究工作一直緊跟國(guó)際水平，國(guó)家也很重視，并把大詞匯量語(yǔ)音識(shí)別的研究列入“863”計(jì)劃，由中科院聲學(xué)所、自動(dòng)化所及北京大學(xué)等單位研究開發(fā)。鑒于中國(guó)未來(lái)龐大的市場(chǎng)，國(guó)外也非常重視漢語(yǔ)語(yǔ)音識(shí)別的研究。美國(guó)、新加坡等地聚集了一批來(lái)自大陸、臺(tái)灣、香港等地的學(xué)者，研究成果已達(dá)到相當(dāng)高水平。因此，國(guó)內(nèi)除了要加強(qiáng)理論研究外，更要加快從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化。

2 語(yǔ)音識(shí)別技術(shù)

首先介紹一下語(yǔ)音識(shí)別系統(tǒng)的分類方式及依據(jù)。

●根據(jù)對(duì)說(shuō)話人說(shuō)話方式的要求，可以分為孤立字（詞）語(yǔ)音識(shí)別系統(tǒng)，連接字語(yǔ)音識(shí)別系統(tǒng)以及連續(xù)語(yǔ)音識(shí)別系統(tǒng)。

●根據(jù)對(duì)說(shuō)話人的依賴程度可以分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng)。

●根據(jù)詞匯量大小，可以分為小詞匯量、中等詞匯量、大詞匯量以及無(wú)限詞匯量語(yǔ)音識(shí)別系統(tǒng)。

不同的語(yǔ)音識(shí)別系統(tǒng)，雖然具體實(shí)現(xiàn)細(xì)節(jié)有所不同，但所采用的基本技術(shù)相似，一個(gè)典型語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)過(guò)程如圖1所示。

圖1 語(yǔ)音識(shí)別的實(shí)現(xiàn)

語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。此外，還涉及到語(yǔ)音識(shí)別單元的選取。

（1）語(yǔ)音識(shí)別單元的選取

選擇識(shí)別單元是語(yǔ)音識(shí)別研究的第一步。語(yǔ)音識(shí)別單元有單詞（句）、音節(jié)和音素三種，具體選擇哪一種，由具體的研究任務(wù)決定。

單詞（白）單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng)，但不適合大詞匯系統(tǒng)，原因在于模型庫(kù)太龐大，訓(xùn)練模型任務(wù)繁重，模型匹配算法復(fù)雜，難以滿足實(shí)時(shí)性要求。

音節(jié)單元多見于漢語(yǔ)語(yǔ)音識(shí)別，主要因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言，而英語(yǔ)是多音節(jié)，并且漢語(yǔ)雖然有大約1300個(gè)音節(jié)，但若不考慮聲調(diào)，約有408個(gè)無(wú)調(diào)音節(jié)，數(shù)量相對(duì)較少。因此，對(duì)于中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，以音節(jié)為識(shí)別單元基本是可行的。

音素單元以前多見于英語(yǔ)語(yǔ)音識(shí)別的研究中，但目前中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也在越來(lái)越多地采用。原因在于漢語(yǔ)音節(jié)僅由聲母（包括零聲母有22個(gè)）和韻母（共有28個(gè)）構(gòu)成，且聲韻母聲學(xué)特性相差很大。實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母，這樣雖然增加了模型數(shù)目，但提高了易混淆音節(jié)的區(qū)分能力。由于協(xié)同發(fā)音的影響，音素單元不穩(wěn)定，所以如何獲得穩(wěn)定的音素單元，還有待研究。

（2）特征參數(shù)提取技術(shù)

語(yǔ)音信號(hào)中含有豐富的信息，但如何從中提取出對(duì)語(yǔ)音識(shí)別有用的信息呢？特征提取就是完成這項(xiàng)工作，它對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理，去除對(duì)語(yǔ)音識(shí)別無(wú)關(guān)緊要的冗余信息，獲得影響語(yǔ)音識(shí)別的重要信息。對(duì)于非特定人語(yǔ)音識(shí)別來(lái)講，希望特征參數(shù)盡—可能多的反映語(yǔ)義信息，盡量減少說(shuō)話人的個(gè)人信息（對(duì)特定人語(yǔ)音識(shí)別來(lái)講，則相反）。從信息論角度講，這是信息壓縮的過(guò)程。

線性預(yù)測(cè)（LP）分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù)，許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型是純數(shù)學(xué)模型，沒有考慮人類聽覺系統(tǒng)對(duì)語(yǔ)音的處理特點(diǎn)。

Mel參數(shù)和基于感知線性預(yù)測(cè)（PLP）分析提取的感知線性預(yù)測(cè)倒譜，在一定程度上模擬了人耳對(duì)語(yǔ)音的處理特點(diǎn)，應(yīng)用了人耳聽覺感知方面的一些研究成果。實(shí)驗(yàn)證明，采用這種技術(shù)，語(yǔ)音識(shí)別系統(tǒng)的性能有一定提高。

也有研究者嘗試把小波分析技術(shù)應(yīng)用于特征提取，但目前性能難以與上述技術(shù)相比，有待進(jìn)一步研究。

（3）模式匹配及模型訓(xùn)練技術(shù)

模型訓(xùn)練是指按照一定的準(zhǔn)則，從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù)，而模式匹配則是根據(jù)一定準(zhǔn)則，使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配。

語(yǔ)音識(shí)別所應(yīng)用的模式匹配和模型訓(xùn)練技術(shù)主要有動(dòng)態(tài)時(shí)間歸正技術(shù)（DTW）、隱馬爾可夫模型（HMM）和人工神經(jīng)元網(wǎng)絡(luò)（ANN）。

DTW是較早的一種模式匹配和模型訓(xùn)練技術(shù)，它應(yīng)用動(dòng)態(tài)規(guī)劃方法成功解決了語(yǔ)音信號(hào)特征參數(shù)序列比較時(shí)時(shí)長(zhǎng)不等的難題，在孤立詞語(yǔ)音識(shí)別中獲得了良好性能。但因其不適合連續(xù)語(yǔ)音大詞匯量語(yǔ)音識(shí)別系統(tǒng)，目前已被HMM模型和ANN替代。

HMM模型是語(yǔ)音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性，其中一個(gè)是隱蔽的（不可觀測(cè)的）具有有限狀態(tài)的Markor鏈，另一個(gè)是與Markor鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過(guò)程（可觀測(cè)的）。隱蔽Markor鏈的特征要靠可觀測(cè)到的信號(hào)特征揭示。這樣，語(yǔ)音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過(guò)程描述，而信號(hào)隨時(shí)間的變化由隱蔽Markor鏈的轉(zhuǎn)移概率描述。模型參數(shù)包括HMM拓?fù)浣Y(jié)構(gòu)、狀態(tài)轉(zhuǎn)移概率及描述觀察符號(hào)統(tǒng)計(jì)特性的一組隨機(jī)函數(shù)。按照隨機(jī)函數(shù)的特點(diǎn)，HMM模型可分為離散隱馬爾可夫模型（采用離散概率密度函數(shù)，簡(jiǎn)稱DHMM）和連續(xù)隱馬爾可夫模型（采用連續(xù)概率密度函數(shù)，簡(jiǎn)稱CHMM）以及半連續(xù)隱馬爾可夫模型（SCHMM，集DHMM和CHMM特點(diǎn)）。一般來(lái)講，在訓(xùn)練數(shù)據(jù)足夠的，CHMM優(yōu)于DHMM和SCHMM。

HMM模型的訓(xùn)練和識(shí)別都已研究出有效的算法，并不斷被完善，以增強(qiáng)HMM模型的魯棒性。

——人工神經(jīng)元網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用是現(xiàn)在研究的又一熱點(diǎn)。ANN本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng)，模擬了人類神經(jīng)元活動(dòng)的原理，具有自學(xué)、聯(lián)想、對(duì)比、推理和概括能力。這些能力是HMM模型不具備的，但ANN又不個(gè)有HMM模型的動(dòng)態(tài)時(shí)間歸正性能。因此，現(xiàn)在已有人研究如何把二者的優(yōu)點(diǎn)有機(jī)結(jié)合起來(lái)，從而提高整個(gè)模型的魯棒性。

3 語(yǔ)音識(shí)別的困難與對(duì)策

目前，研究工作進(jìn)展緩慢，主要表現(xiàn)在理論上一直沒有突破。雖然各種新的修正方法不斷涌現(xiàn)，但其普遍適用性都值得商榷。

具體來(lái)講，困難主要表現(xiàn)在：

●語(yǔ)音識(shí)別系統(tǒng)的適應(yīng)性差，主要體現(xiàn)在對(duì)環(huán)境依賴性強(qiáng)，即在某種環(huán)境下采集到的語(yǔ)音訓(xùn)練系統(tǒng)只能在這種環(huán)境下應(yīng)用，否則系統(tǒng)性能將急劇下降；另外一個(gè)問題是對(duì)用戶的錯(cuò)誤輸入不能正確響應(yīng)，使用不方便。

●高噪聲環(huán)境下語(yǔ)音識(shí)別進(jìn)展困難，因?yàn)榇藭r(shí)人的發(fā)音變化很大，像聲音變高，語(yǔ)速變慢，音調(diào)及共振峰變化等等，這就是所謂Lombard效應(yīng)，必須尋找新的信號(hào)分析處理方法。

●語(yǔ)言學(xué)、生理學(xué)、心理學(xué)方面的研究成果已有不少，但如何把這些知識(shí)量化、建模并用于語(yǔ)音識(shí)別，還需研究。而語(yǔ)言模型、語(yǔ)法及詞法模型在中、大詞匯量連續(xù)語(yǔ)音識(shí)別中是非常重要的。

●我們對(duì)人類的聽覺理解、知識(shí)積累和學(xué)習(xí)機(jī)制以及大腦神經(jīng)系統(tǒng)的控制機(jī)理等分面的認(rèn)識(shí)還很不清楚；其次，把這方面的現(xiàn)有成果用于語(yǔ)音識(shí)別，還有一個(gè)艱難的過(guò)程。

●語(yǔ)音識(shí)別系統(tǒng)從實(shí)驗(yàn)室演示系統(tǒng)到商品的轉(zhuǎn)化過(guò)程中還有許多具體問題需要解決，識(shí)別速度、拒識(shí)問題以及關(guān)鍵詞（句）檢測(cè)技術(shù)（即從連續(xù)語(yǔ)音中去除諸如“啊”、“唉”等語(yǔ)音，獲得真正待識(shí)別的語(yǔ)音部分）等等技術(shù)細(xì)節(jié)要解決。

為了解決這些問題，研究人員提出了各種各樣的方法，如自適應(yīng)訓(xùn)練，基于最大互信息準(zhǔn)則（MMI）和最小區(qū)別信息準(zhǔn)則（MDI）的區(qū)別訓(xùn)練和“矯正”訓(xùn)練；應(yīng)用人耳對(duì)語(yǔ)音信號(hào)的處理特點(diǎn)，分析提取特征參數(shù)，應(yīng)用人工神經(jīng)元網(wǎng)絡(luò)……所有這些努力都取得了一定成績(jī)。

不過(guò)，如果要使語(yǔ)音識(shí)別系統(tǒng)性能有大的提高，就要綜合應(yīng)用語(yǔ)言學(xué)、心理學(xué)、生理學(xué)以及信號(hào)處理等各門學(xué)科有關(guān)知識(shí)，只用其中一種是不行的。

4 語(yǔ)音識(shí)別的應(yīng)用

目前世界各國(guó)都加快了語(yǔ)音識(shí)別應(yīng)用系統(tǒng)的研究開發(fā)，并已有一些實(shí)用的語(yǔ)音識(shí)別系統(tǒng)投入商業(yè)運(yùn)營(yíng)。在美國(guó)語(yǔ)音識(shí)別系統(tǒng)的銷售額逐年上升，由于使用了語(yǔ)音識(shí)別系統(tǒng)，為企業(yè)贏得了巨額收入。

比較典型而成功的語(yǔ)音識(shí)別系統(tǒng)有AT＆T于1992年開發(fā)的VRCP系統(tǒng)。該系統(tǒng)是有五個(gè)單詞（collect，person，third number，operator和calling card）的非特定人小詞匯量語(yǔ)音識(shí)別系統(tǒng)，現(xiàn)已應(yīng)用于AT＆T通信網(wǎng)上，可以實(shí)現(xiàn)自動(dòng)話務(wù)員協(xié)助式呼叫，代替話務(wù)員完成五種呼叫類型，即

●collect call——受話人付費(fèi)電話，命令字col1ect

●person-person-call——定人呼叫，命令字person

●third-party-billing-call——第三方付費(fèi)電話，命令字third number

●operator-assisted call——話務(wù)員協(xié)助呼叫，命令字operator

●credit card call——信用卡呼叫，命令字calling card

為使用戶使用方便，系統(tǒng)配有語(yǔ)音提示告訴用戶如何使用。該系統(tǒng)所具有的關(guān)鍵詞檢測(cè)技術(shù)可從句子中查找到五個(gè)命令字中的一個(gè)，從而使用戶在講話時(shí)更加自然，如可以講“collect call please”，整個(gè)系統(tǒng)的正確識(shí)別率超過(guò)99％。

此外，已經(jīng)實(shí)用的系統(tǒng)還有AT ＆ T 800語(yǔ)音識(shí)別服務(wù)系統(tǒng)，NTT ANSER語(yǔ)音識(shí)別銀行服務(wù)系統(tǒng)，Northen Telecom股票價(jià)格行情系統(tǒng)，使得原本手工操作的工作用語(yǔ)音就可方便地完成。

從語(yǔ)音識(shí)別技術(shù)的發(fā)展可以看出，科學(xué)技術(shù)推動(dòng)了社會(huì)發(fā)展，滿足人們的需求，社會(huì)需求也反過(guò)來(lái)推動(dòng)科學(xué)技術(shù)發(fā)展。多媒體時(shí)代的來(lái)臨，迫切要求解決自動(dòng)語(yǔ)音識(shí)別的難題，必然推動(dòng)語(yǔ)音識(shí)別理論和應(yīng)用研究的進(jìn)展。估計(jì)在本世紀(jì)最后幾年至二十一世紀(jì)初，語(yǔ)音識(shí)別技術(shù)將會(huì)在理論上和應(yīng)用上都取得突破性進(jìn)展。到那時(shí)，我們將體會(huì)到語(yǔ)音識(shí)別帶來(lái)的種種便利。（CIO時(shí)代論壇）

發(fā)布：2007-04-21 13:55 編輯：泛普軟件 · xiaona [打印此頁(yè)] [關(guān)閉]

相關(guān)欄目：

相關(guān)文章：

上一篇：信息安全從呼救到反攻

下一篇：固態(tài)硬盤節(jié)省成本與提高性能

哈爾濱OA系統(tǒng)

聯(lián)系方式

成都公司：成都市成華區(qū)建設(shè)南路160號(hào)1層9號(hào)

重慶公司：重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢：400-8352-114

加微信，免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

電話咨詢：
4008352114

QQ在線咨詢

淺析語(yǔ)音識(shí)別技術(shù)及其發(fā)展

泛普哈爾濱OA軟件行業(yè)資訊其他應(yīng)用