監(jiān)理公司管理系統(tǒng) | 工程企業(yè)管理系統(tǒng) | OA系統(tǒng) | ERP系統(tǒng) | 造價咨詢管理系統(tǒng) | 工程設(shè)計管理系統(tǒng) | 簽約案例 | 購買價格 | 在線試用 | 手機(jī)APP | 產(chǎn)品資料
X 關(guān)閉

語音識別:讓你的手機(jī)更聰明

申請免費(fèi)試用、咨詢電話:400-8352-114

文章來源:泛普軟件

當(dāng)語音識別技術(shù)最早開始被應(yīng)用到電腦桌面時,不少人對這項技術(shù)信心十足,認(rèn)為將它全面替代鍵盤和鼠標(biāo),開啟一個新的交互時代。多年過去了,這一幕始終沒有出現(xiàn),語音識別技術(shù)始終處于不溫不火的狀態(tài)。而現(xiàn)在,隨著智能手機(jī)的流行,語音識別技術(shù)重新看到了成為主流應(yīng)用的希望。這一次,其應(yīng)用和研發(fā)的推動力明顯不同于電腦領(lǐng)域。

在手機(jī)上更有市場

語音識別最早出現(xiàn)在20世紀(jì)50年代,進(jìn)入60年代早期,IBM曾研究出一種可以識別16個單詞的設(shè)備,并且能做簡單的算術(shù)運(yùn)算。到20世紀(jì)80年代美國Dragon Systems公司推出了首個面向PC的語音識別技術(shù)DragonDictate。它只能識別單個單詞,要求一次只讀一個?,F(xiàn)在這個產(chǎn)品還在(屬于Nuance公司),已經(jīng)有了11版,可以識別正常語速的對話。

語音識別之所以一直難以在桌面領(lǐng)域流行,有兩個重要限制因素。首先,為了保證識別迅速而且準(zhǔn)確,系統(tǒng)必須接受訓(xùn)練以建立用戶的語音模式,如Vista、Windows 7自帶的語音識別軟件都需要給系統(tǒng)一定的學(xué)習(xí)時間來識別用戶的發(fā)音。第二個因素是鍵盤的流行,大多數(shù)人已經(jīng)習(xí)慣打字而不是說話。

而語音識別技術(shù)要流行需要兩個條件:一個是語音識別軟件簡單易用,另一個是某種場合只能說話而使用鍵盤很不方便。而這種場景已經(jīng)出現(xiàn),并且出現(xiàn)了很長時間,這就是移動電話領(lǐng)域。

Nuance產(chǎn)品和市場高級副總裁Matt Revis解釋了桌面和移動環(huán)境的不同:“桌面是一個固定的環(huán)境,桌面環(huán)境中的語音識別技術(shù)主要用于完成辦公軟件、網(wǎng)頁瀏覽、通信移動等應(yīng)用,而移動環(huán)境則完全不同,用戶可能在室外正處于移動狀態(tài),而且需要免提?!?/P>

Gartner分析師Tuong Nguyen也認(rèn)為語音識別在移動場景中更有價值:“從使用的角度看,語音識別在手持設(shè)備的價值要大得多。因為它提供了一個用戶友好、直觀的輸入方法,特別是對那些沒有實(shí)體鍵盤的觸摸屏手機(jī)而言?!?/P>

由于移動設(shè)備通常只有較小的存儲空間和比較有限的計算機(jī)能力,所以,語音識別在手機(jī)上的應(yīng)用也經(jīng)歷了一個發(fā)展過程。早期的語音識別應(yīng)用非常簡單,主要用于識別號碼進(jìn)行撥號。當(dāng)今的手機(jī)內(nèi)存已經(jīng)達(dá)到了幾百兆,另外還有GB級別的閃存,對語音識別技術(shù)的限制已經(jīng)很少。語音識別能力提高的另一個條件是網(wǎng)絡(luò),網(wǎng)絡(luò)帶寬的增加使得我們可以把一些處理放到遠(yuǎn)程服務(wù)器上完成。

如今手機(jī)上的語音識別技術(shù)已經(jīng)遠(yuǎn)不止語音撥號。主要包括以下三個方面:

聲控:語音撥號就是聲控功能的一種,過去聲控功能只能編輯幾條固定的命令讓手機(jī)完成指定的動作,而現(xiàn)在則要強(qiáng)大得多,而且不用預(yù)先編輯,手機(jī)可以執(zhí)行相應(yīng)的動作。比如,對手機(jī)說“撥12345”或者“給媽媽撥號”等,它就可以完成撥號。

語音轉(zhuǎn)文字:iPhone上有一個Dragon Dictation的應(yīng)用程序,使用它用戶可以通過語音記筆記和發(fā)送電子郵件、更新Twitter;黑莓上也有類似功能的應(yīng)用,如Dragon for Email;Android手機(jī)自帶的語音識別軟件可以幫助用戶通過語音發(fā)送短信。

翻譯:這項技術(shù)目前還不太成熟,不過也已經(jīng)有了一些應(yīng)用,如iPhone上的Jibbigo就可以翻譯單詞、短語和簡單的句子,讓雙方進(jìn)行簡單的交流。

未來發(fā)展方向

如果要問一個語音技術(shù)工程師,語音識別技術(shù)的未來會如何發(fā)展,他通常會說:自然語言處理。

所謂自然語言處理就是系統(tǒng)能夠理解你的意思,而不只是知道你說的是什么。在這樣的系統(tǒng)中,用戶可以根據(jù)自己習(xí)慣不受約束地表達(dá)自己的意思。

不過,要在對話中實(shí)現(xiàn)自然語言處理面臨雙重挑戰(zhàn):首先,你必須識別出說的什么,然后還要理解要表達(dá)什么意思。第一步現(xiàn)在越來越容易,而第二步卻非常困難:人們表達(dá)的意思與上下文環(huán)境高度相關(guān),即使是人類自身也可能不能正確理解,更何況是電腦。

好在隨著手機(jī)功能的豐富將幫助系統(tǒng)理解人們所要表達(dá)的真正含義。語音識別系統(tǒng)可以把用戶所說的話與手機(jī)所感受到的外界環(huán)境等信息結(jié)合起來,從而提供更準(zhǔn)確的結(jié)果。比如,一個用戶正在餐館就餐,他就很可能用到點(diǎn)菜、埋單、預(yù)訂、叫出租車等詞匯。

語音識別技術(shù)的另一個應(yīng)用針對某個用戶進(jìn)行專門的定制,這其實(shí)有些類似桌面語音識別應(yīng)用的發(fā)音學(xué)習(xí)。例如,最新版的谷歌語音搜索提供一個選項,允許針對用戶自己定制一個語音識別系統(tǒng)。如果用戶選擇了自己的語音識別系統(tǒng),谷歌就會把這個用戶和他的發(fā)音方式聯(lián)系起來,從而讓谷歌能夠針對這個用戶的發(fā)音建立一個專門的識別模型。

語音識別技術(shù)的另一個未來發(fā)展領(lǐng)域是游戲,語音可以大大豐富游戲的娛樂性,比如,直接給宇宙飛船發(fā)命令或者對嫌疑人進(jìn)行審訊。

總體而言,到目前為止,對于手機(jī)而言語音識別技術(shù)還是一項錦上添花的技術(shù)。好在這一技術(shù)正在不斷改進(jìn),為有朝一日的突破奠定基礎(chǔ),而手機(jī)恰恰為這項技術(shù)的突破提供了一個非常好的舞臺。

鏈接:語音識別技術(shù)的工作原理

語音識別技術(shù)的工作原理是利用語言發(fā)音的統(tǒng)計模型,也就是比較輸入語音和該語言的統(tǒng)計模型,設(shè)法找到最接近的匹配單詞。建立某個語言的統(tǒng)計模型需要大量的存儲空間,比如需要存儲該語言所有的基本發(fā)音、所有單詞以及所有單詞之間可能組合在一起的發(fā)音方式,在此之上,還有口音以及因年齡、性別不同而帶來的發(fā)音差異等。

以Google的語音搜索(Voice Search)為例,它需要兩個統(tǒng)計模型:聲學(xué)模型、語言模型。聲學(xué)模型是通過提取錄音和說話者錄音的腳本來建立的,而語言模型主要搞清楚哪些單詞最有可能跟在另外一些單詞之后,以提高識別的準(zhǔn)確性。

發(fā)布:2007-04-21 11:07    編輯:泛普軟件 · xiaona    [打印此頁]    [關(guān)閉]
相關(guān)文章:
長沙OA系統(tǒng)
聯(lián)系方式

成都公司:成都市成華區(qū)建設(shè)南路160號1層9號

重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務(wù)大廈18樓

咨詢:400-8352-114

加微信,免費(fèi)獲取試用系統(tǒng)

QQ在線咨詢

泛普長沙OA軟件行業(yè)資訊其他應(yīng)用

長沙OA 長沙新聞動態(tài) 長沙OA信息化 長沙OA快博 長沙OA軟件行業(yè)資訊 長沙軟件開發(fā)公司 長沙門禁系統(tǒng) 長沙物業(yè)管理軟件 長沙倉庫管理軟件 長沙餐飲管理軟件 長沙網(wǎng)站建設(shè)公司