【中國安防展覽網(wǎng) 企業(yè)關注】通過利用深度學習技術進行自然語言的深度理解,一直是人們關注的焦點。聽音樂不需要自己查找,開燈不需要動手,空調能聽懂你的心聲……這些場景在很多影視作品中有所表現(xiàn),也代表了很多人腦海中“智慧生活”的概念。基于此,在人工智能發(fā)展的熱潮中,自然語言處理成為了各大企業(yè)和科研機構角逐的戰(zhàn)場。
目前,語音交互賽道已匯集了互聯(lián)網(wǎng)巨頭、硬件企業(yè)、電商平臺、傳統(tǒng)家電廠商以及各類人工智能初創(chuàng)公司,特別是近幾年以智能音箱為代表的語音交互產(chǎn)品在國內外的火爆,極大地激發(fā)了語音交互技術的應用和發(fā)展。
多個領域均有應用落地
近段時間,智能家居硬件中風頭盛的無疑是小米AI音箱。此品一經(jīng)推出,便在市場上引起了極大反響,被眾多媒體稱為“交互體驗好的音箱”、“智能音箱界的擔當”、“目前‘熱門’的智能硬件”……而在小編看來,小米AI音箱,沒錯,但也沒到他們夸的這種程度。以小編周圍人的具體使用體驗來看,其語音識別能力并沒有特別突出,與目前市場上主流同類產(chǎn)品區(qū)別不大。它大的優(yōu)勢是在生態(tài)鏈方面,通過小米AI音箱,可以控制小米臺燈、小米掃地機器人、小米落地扇等配套家具設備。毫無疑問,這將使得人們距離智能生活更進一步。
在汽車及智能移動設備領域,語音交互功能已經(jīng)很普及。在開車的時候,人們往往騰不出手,也不應該騰出手去操作手機,這時候,車載語音就成了必需品,也成了車聯(lián)網(wǎng)標配。在當下這個智能互聯(lián)、無人駕駛被炒得火熱的時代,新車不帶點語音識別的黑科技,似乎都不好意思拿出手。福特的SYNC系統(tǒng)專為手機和數(shù)字媒體播放器配備的福特車載多媒體通信娛樂系統(tǒng),是目前車載系統(tǒng)中采用語音交互技術的成功的案例,已經(jīng)廣泛應用在福特多個系列汽車中。互聯(lián)網(wǎng)巨頭蘋果在其iPhone4S中推出智能語音助理應用Siri后,Google公司也在其安卓智能手機操作系統(tǒng)中推出了GoogleNow智能語音搜索及問答服務,微軟公司也將語音技術應用于WindowsPhone,三星也適時推出了Bixby。
在金融領域。語音識別技術也有了用武之地。近日,中國建設銀行在上海黃浦區(qū)開設了一家自動化服務支行,由機器人為顧客服務。機器人裝配面部掃描識別軟件,可以解答顧客的大部分問題,解決普通高街銀行絕大部分的業(yè)務需求,同時還配備人工輔助服務以及其他專業(yè)服務,以滿足個性化需求。顧客由機器人接待,這些機器人通過語音識別功能,與人交流,解答顧客的問題。人工服務能做到的事,它們也能完成絕大部分,包括開戶、轉賬以及投資。
此外,在新零售領域,智能語音技術的應用也在不斷擴展。比如2017年12月18日,科大訊飛和紅星美凱龍發(fā)布戰(zhàn)略合作計劃,未來由科大訊飛研發(fā)的智能導購機器人“美美”將在全國紅星美凱龍門店上市。
除了語音交互之外,語音轉文字也是當前語音識別技術中的一大熱點。早先,這個功能是新聞工作者的愛,用此功能整理采訪稿件、演講稿件能極大的提高工作效率,如今,這個功能正在被普通人接受,老人、懶癌發(fā)作的年輕人都可以使用此功能來替代打字。
時至今日,資本的涌入、政策的扶持、市場的一再擴容,使得語音技術日益成熟,語音市場也迎來了一個應用落地的黃金發(fā)展期。根據(jù)相關統(tǒng)計數(shù)據(jù)顯示,2016年智能語音產(chǎn)業(yè)規(guī)模直逼60億元大關,2017年將破百億,同比增長69%左右。
技術現(xiàn)狀并不能讓人滿意
與語音識別在多個領域開枝散葉形成對比的是,語音識別技術的發(fā)展頗為緩慢,在這種形勢下,語音識別技術在實際應用中碰到了許多問題。
現(xiàn)在有很多企業(yè)說自己的語音識別率已經(jīng)達到了97%甚至是98%,但在實際應用中,效果并不能讓人滿意。舉一個比較有信服力的例子,IBMT.JWatson研究院開發(fā)的中文語音識別系統(tǒng)連續(xù)三年在美國DARPA主辦的競賽中名列,該系統(tǒng)在識別央視《新聞聯(lián)播》節(jié)目時,其錯誤率小于5%,但在識別其它內容時,差距非常大。在實際應用中,識別率主要受到以下幾個因素的影響:
對于漢語語音識別,方言或口音會降低識別率。
公共場所的強噪聲對識別效果影響甚大,即使是在實驗室環(huán)境下,敲擊鍵盤、移動麥克風都會成為背景噪聲。
打斷問題,如果人在說話時有停頓,機器就不能很好的聯(lián)系上下文使語意通順。
此處,還有“口語”問題。它既涉及到自然語言理解,又與聲學有關。語音識別技術的終目的是要讓用戶在“人機對話”時,能夠像進行“人與人對話”一樣自然,而一旦用戶以跟人交談的方式進行語音輸入時,口語的語法不規(guī)范和語序不正常的特點會給語義的分析和理解帶來困難。
語音識別的技術迭代
此前,就有人指出口音、新詞匯等問題可以通過語音識別技術在實際應用中的數(shù)據(jù)采集來實現(xiàn)。隨著數(shù)據(jù)量的增加,這種問題都能得到解決。
而另外諸如“打斷”等問題,便需要各種深度學習模型,如DNN、CNN、BLSTM(雙向長短時記憶神經(jīng)網(wǎng)絡)等,以及新的算法,來逐步解決。
技術使用起來往往需要一個迭代的過程的,需要先上線,然后在場景里收集數(shù)據(jù)去評估,優(yōu)化模型,改善用戶體驗。經(jīng)過幾輪迭代,才可以發(fā)揮佳效果。其他AI技術也是相似的。今天很多AI技術的用戶很容易把技術的能力理想化,感覺一引入,就應該*的看到效果。看到實際效果不盡人意時,就會感覺有很大的落差,失望和放棄。誠然,智能語音技術已經(jīng)達到廣發(fā)應用的水平,但在真正落地的時候,要充分認識到可能遇到的困難,有持久戰(zhàn)的思想準備。
總結
可以預測在近五到十年內,語音識別系統(tǒng)的應用將更加廣泛。各種各樣的語音識別系統(tǒng)產(chǎn)品將出現(xiàn)在市場上。人們也將調整自己的說話方式以適應各種各樣的識別系統(tǒng)。在短期內還不可能造出具有和人相比擬的語音識別系統(tǒng),要建成這樣一個系統(tǒng)仍然是人類面臨的一個大的挑戰(zhàn),我們只能一步步朝著改進語音識別系統(tǒng)的方向一步步地前進。至于什么時候可以建立一個像人一樣完善的語音識別系統(tǒng)則是很難預測的。就像在60年代,誰又能預測今天超大規(guī)模集成電路技術會對我們的社會產(chǎn)生這么大的影響。