11月16號,百度發布了渡鴉智能音箱和DuerOS開發板SoundPi,至此,國內再一名巨頭加入智能音箱大戰。迄今為止,國內戰場上的巨頭有阿里、京東、騰訊、百度、小米、科大訊飛等,國外則有蘋果、微軟、亞馬遜、谷歌、臉書、三星等,這些巨頭占據了全球市值的排名榜,同時發力爭奪未來人工智能時代的語音入口,甚至亞馬遜和阿里率先不惜代價開啟了補貼大戰。這些全球巨頭的激烈競爭,將對未來十年產生極其重要的影響,同時,這更是新一波的職業快速發展機會。
語音智能當前的核心關鍵是聲學問題和語義理解,隨著市場需求的爆發,能夠補齊其中一項技術短板的全棧語音識別工程師將會變成職場香餑餑,而且這類人才的培養成本非常高昂,至少會在未來十年內成為各大巨頭和創業公司爭搶的核心人才。
那么,如何成為一名全棧語音識別工程師呢?原中國科學院聲學研究所副研究員,聲智科技創始人陳孝良接受了我們的邀約,專門就這個話題撰文。這是一篇將知識縱橫連接,并能結合實踐深入淺出的文章,對于全面了解語音識別很有幫助。其后,AI科技大本營就幾個問題略作追訪,希望對你有所幫助。
語音識別基礎知識
【數學與統計學】
數學是所有學科的基礎,其中的高等數學、數理方程、泛函分析等課程是必要的基礎知識,概率論與數理統計也是語音識別的基礎學科。
【聲學與語言學】
聲學基礎、理論聲學、聲學測量等是聲學方面的基礎課程,有助于了解更多聲學領域的知識。語言學概論、語言哲學、語義小論與語用多元論、語法化與語義圖等知識對于理解語言模型和語音交互UI設計非常有幫助。
【計算機學】
信號系統、數字信號處理、語音信號處理、離散數學、數據結構、算法導論、并行計算、C語言概論、Python語言、語音識別、深度學習等課程也是必備的基礎知識。
語音識別專業知識
語音識別的知識體系可以劃分為三個大的部分:專業基礎、支撐技能和應用技能。語音識別的專業基礎又包括了算法基礎、數據知識和開源平臺,其中算法基礎是語音識別系統的核心知識,包括了聲學機理、信號處理、聲學模型、語言模型和解碼搜索等。
【專業基礎】
算法基礎
聲學機理:包括發音機理、聽覺機理和語言機理,發音機理主要探討人類發聲器官和這些器官在發聲過程中的作用,而聽覺機理主要探討人類聽覺器官、聽覺神經及其辨別處理聲音的方式,語言機理主要探究人類語言的分布和組織方式。這些知識對于理論突破和模型生成具有重要意義。
信號處理:包括語音增強、噪聲抑制、回聲抵消、混響抑制、波束形成、聲源定位、聲源分離、聲源追蹤等。具體如下:
語音增強:這里是狹義定義,指自動增益或者陣列增益,主要是解決拾音距離的問題,自動增益一般會增加所有信號能量,而語音增強只增加有效語音信號的能量。
噪聲抑制:語音識別不需要完全去除噪聲,相對來說通話系統中則必須完全去除噪聲。這里說的噪聲一般指環境噪聲,比如空調噪聲,這類噪聲通常不具有空間指向性,能量也不是特別大,不會掩蓋正常的語音,只是影響了語音的清晰度和可懂度。這種方法不適合強噪聲環境下的處理,但是足以應付日常場景的語音交互。
混響消除:混響消除的效果很大程度影響了語音識別的效果。一般來說,當聲源停止發聲后,聲波在房間內要經過多次反射和吸收,似乎若干個聲波混合持續一段時間,這種現象叫做混響。混響會嚴重影響語音信號處理,并且降低測向精度。
回聲抵消:嚴格來說,這里不應該叫回聲,應該叫“自噪聲”。回聲是混響的延伸概念,這兩者的區別就是回聲的時延更長。一般來說,超過100毫秒時延的混響,人類能夠明顯區分出,似乎一個聲音同時出現了兩次,就叫做回聲。實際上,這里所指的是語音交互設備自己發出的聲音,比如Echo音箱,當播放歌曲的時候若叫Alexa,這時候麥克風陣列實際上采集了正在播放的音樂和用戶所叫的Alexa聲音,顯然語音識別無法識別這兩類聲音。回聲抵消就是要去掉其中的音樂信息而只保留用戶的人聲,之所以叫回聲抵消,只是延續大家的習慣,其實是不恰當的。
聲源測向:這里沒有用聲源定位,測向和定位是不太一樣的,而消費級麥克風陣列做到測向就可以,定位則需要更多的成本投入。聲源測向的主要作用就是偵測到與之對話人類的聲音以便后續的波束形成。聲源測向可以基于能量方法,也可以基于譜估計,陣列也常用TDOA技術。聲源測向一般在語音喚醒階段實現,VAD技術其實就可以包含到這個范疇,也是未來功耗降低的關鍵因素。
波束形成:波束形成是通用的信號處理方法,這里是指將一定幾何結構排列的麥克風陣列的各麥克風輸出信號經過處理(例如加權、時延、求和等)形成空間指向性的方法。波束形成主要是抑制主瓣以外的聲音干擾,這里也包括人聲,比如幾個人圍繞Echo談話的時候,Echo只會識別其中一個人的聲音。
端點檢測:端點檢測,英語是Voice ActivityDetection,簡稱VAD,主要作用是區分一段聲音是有效的語音信號還是非語音信號。VAD是語音識別中檢測句子之間停頓的主要方法,同時也是低功耗所需要考慮的重要因素。VAD通常都用信號處理的方法來做,之所以這里單獨劃分,因為現在VAD的作用其實更加重要,而且通常VAD也會基于機器學習的方法來做。
特征提取:聲學模型通常不能直接處理聲音的原始數據,這就需要把時域的聲音原始信號通過某類方法提取出固定的特征序列,然后將這些序列輸入到聲學模型。事實上深度學習訓練的模型不會脫離物理的規律,只是把幅度、相位、頻率以及各個維度的相關性進行了更多的特征提取。
聲學模型:聲學模型是語音識別中為關鍵的部分,是將聲學和計算機學的知識進行整合,以特征提取部分生成的特征作為輸入,并為可變長的特征序列生成聲學模型分數。聲學模型核心要解決特征向量的可變長問題和聲音信號的多變性問題。事實上,每次所提到的語音識別進展,基本上都是指聲學模型的進展。聲學模型迭代這么多年,已經有很多模型,我們把每個階段應用為廣泛的模型介紹一下,其實現在很多模型都是在混用,這樣可以利用各個模型的優勢,對于場景的適配更加魯棒。
GMM,Gaussian Mixture Model,即高斯混合模型,是基于傅立葉頻譜語音特征的統計模型,可以通過不斷迭代優化求取GMM中的加權系數及各個高斯函數的均值與方差。GMM模型訓練速度較快,聲學模型參數量小,適合離線終端應用。深度學習應用到語音識別之前,GMM-HMM混合模型一直都是的語音識別模型。但是GMM不能有效對非線性或近似非線性的數據進行建模,很難利用語境的信息,擴展模型比較困難。
HMM,Hidden Markov Model,即隱馬爾可夫模型,用來描述一個含有隱含未知參數的馬爾可夫過程,從可觀察的參數中確定該過程的隱含參數,然后利用這些參數來進一步分析。HMM是一種可以估計語音聲學序列數據的統計學分布模型,尤其是時間特征,但是這些時間特征依賴于HMM的時間獨立性假設,這樣對語速、口音等因素與聲學特征就很難關聯起來。HMM還有很多擴展的模型,但是大部分還只適應于小詞匯量的語音識別,大規模語音識別仍然非常困難。
DNN,Deep Neural Network,即深度神經網絡,是較早用于聲學模型的神經網絡,DNN可以提高基于高斯混合模型的數據表示的效率,特別是DNN-HMM混合模型大幅度地提升了語音識別率。由于DNN-HMM只需要有限的訓練成本便可得到較高的語音識別率,目前仍然是語音識別工業領域常用的聲學模型。
RNN,Recurrent Neural Networks,即循環神經網絡,CNN,Convolutional NeuralNetworks,即卷積神經網絡,這兩種神經網絡在語音識別領域的應用,主要是解決如何利用可變長度語境信息的問題,CNN/RNN比DNN在語速魯棒性方面表現的更好一些。其中,RNN模型主要包括LSTM(多隱層長短時記憶網絡)、highway LSTM、Residual LSTM、雙向LSTM等。CNN模型包括了時延神經網絡(TDNN)、CNN-DNN、CNN-LSTM-DNN(CLDNN)、CNN-DNN-LSTM、Deep CNN等。其中有些模型性能相近,但是應用方式不同,比如雙向LSTM和Deep CNN性能接近,但是雙向LSTM需要等一句話結束才能識別,而Deep CNN則沒有時延更適合實時語音識別。
語言模型:通過訓練語料學習詞之間的關系來估計詞序列的可能性,常見的語言模型是N-Gram模型。近年,深度神經網絡的建模方式也被應用到語言模型中,比如基于CNN及RNN的語言模型。
解碼搜索:解碼是決定語音識別速度的關鍵因素,解碼過程通常是將聲學模型、詞典以及語言模型編譯成一個網絡,基于大后驗概率的方法,選擇一條或多條優路徑作為語音識別結果。解碼過程一般可以劃分動態編譯和靜態編譯,或者同步與異步的兩種模式。目前比較流行的解碼方法是基于樹拷貝的幀同步解碼方法。
語音識別數據知識
數據采集:主要是將用戶與機器對話的聲音信息收集起來,一般分為近場和遠場兩個部分,近場采集一般基于手機就可完成,遠場采集一般需要麥克風陣列。數據采集同時還有關注采集環境,針對不同數據用途,語音采集的要求也很不一樣,比如人群的年齡分布、性別分布和地域分布等。
數據清洗:主要是將采集的數據進行預處理,剔除不合要求的語音甚至是失效的語音,為后面的數據標注提供精確的數據。
數據標注:主要是將聲音的信息翻譯成對應的文字,訓練一個聲學模型,通常要標注數萬個小時,而語音是時序信號,所以需要的人力工時相對很多,同時由于人員疲憊等因素導致標注的錯誤率也比較高。如何提高數據標注的成功率也是語音識別的關鍵問題。
數據管理:主要是對標注數據的分類管理和整理,這樣更利于數據的有效管理和重復利用。
數據安全:主要是對聲音數據進行安全方便的處理,比如加密等,以避免敏感信息泄露。
語音識別開源平臺
目前主流的開源平臺包括CMU Sphinx、HTK、Kaldi、Julius、iATROS、CNTK、TensorFlow等,CMU Sphinx是離線的語音識別工具,支持DSP等低功耗的離線應用場景。由于深度學習對于語音識別WER的下降具有明顯的作用,所以Kaldi、CNTK、TensorFlow等支持深度學習的工具目前比較流行,Kaldi的優勢就是集成了很多語音識別的工具,包括解碼搜索等。具體的開源平臺匯總如表1所示。
【支撐技能】
聲學器件
傳聲器,通常稱為麥克風,是一種將聲音轉換成電子信號的換能器,即把聲信號轉成電信號,其核心參數是靈敏度、指向性、頻率響應、阻抗、動態范圍、信噪比、大聲壓級(或AOP,聲學過載點)、一致性等。傳聲器是語音識別的核心器件,決定了語音數據的基本質量。
揚聲器,通常稱為喇叭,是一種把電信號轉變為聲信號的換能器件,揚聲器的性能優劣對音質的影響很大,其核心指標是TS參數。語音識別中由于涉及到回聲抵消,對揚聲器的總諧波失真要求稍高。
激光拾聲,這是主動拾聲的一種方式,可以通過激光的反射等方法拾取遠處的振動信息,從而還原成為聲音,這種方法以前主要應用在竊聽領域,但是目前來看這種方法應用到語音識別還比較困難。
微波拾聲,微波是指波長介于紅外線和無線電波之間的電磁波,頻率范圍大約在 300MHz至300GHz之間,同激光拾聲的原理類似,只是微波對于玻璃、塑料和瓷器幾乎是穿越而不被吸收。
高速攝像頭拾聲,這是利用高速攝像機來拾取振動從而還原聲音,這種方式需要可視范圍和高速攝像機,只在一些特定場景里面應用。
計算芯片
DSP,Digital Signal Processor,數字信號處理器,一般采用哈佛架構,具有低功耗運算快等優點,主要應用在低功耗語音識別領域。
ARM,Acorn RISC Machine,是英國公司設計的一種RISC處理器架構,具有低功耗高性能的特點,在移動互聯網領域廣泛應用,目前IOT領域,比如智能音箱也是以ARM處理器為主。
FPGA,Field-Programmable Gate Array,現場可編程門陣列,是ASIC領域中的一種半定制電路,既解決了固定定制電路的不足,又克服了可編程器件門電路有限的缺點。FPGA在并行計算領域也非常重要,大規模的深度學習也可以基于FPGA計算實現。
GPU,Graphics Processing Unit,圖形處理器,是當前深度學習領域火的計算架構,事實上深度學習領域用到的是GPGPU,主要是進行大規模計算的加速,GPU通常的問題就是功耗過大,所以一般應用到云端的服務器集群。
另外,還有NPU、TPU等新興的處理器架構,主要為深度學習算法進行專門的優化,由于還沒有大規模使用,這里先不詳敘。
聲學結構
陣列設計,主要是指麥克風陣列的結構設計,麥克風陣列一般來說有線形、環形和球形之分,嚴謹的應該說成一字、十字、平面、螺旋、球形及無規則陣列等。至于麥克風陣列的陣元數量,也就是麥克風數量,可以從2個到上千不等,因此陣列設計就要解決場景中的麥克風陣列陣型和陣元數量的問題,既保證效果,又控制成本。
聲學設計,主要是指揚聲器的腔體設計,語音交互系統不僅需要收聲,還需要發聲,發聲的質量也特別重要,比如播放音樂或者視頻的時候,音質也是非常重要的參考指標,同時,音質的設計也將影響語音識別的效果,因此聲學設計在智能語音交互系統也是關鍵因素。
【應用技能】
語音識別的應用將是語音交互時代值得期待的創新,可以類比移動互聯時代,終黏住用戶的還是語音應用程序,而當前的人工智能主要是基礎建設,AI的應用普及還是需要一段時間。雖然Amazon的Alexa已經有上萬個應用,但是從用戶反饋來看,目前主要還是以下幾個核心技術點的應用。
語音控制,事實上是當前主要的應用,包括了鬧鐘、音樂、地圖、購物、智能家電控制等等功能,語音控制的難度相對也比較大,因為語音控制要求語音識別更加精準、速度更快。
語音轉錄,這在比如會議系統、智能法院、智能醫療等領域具有特殊應用,主要是實時將用戶說話的聲音轉錄成文字,以便形成會議紀要、審判記錄和電子病歷等。
語言翻譯,主要是在不同語言之間進行切換,這在語音轉錄的基礎上增加了實時翻譯,對于語音識別的要求更高。
下面這三種識別,可以歸為語音識別的范疇,也可以單獨列成一類,這里我們還是廣義歸納到語音識別的大體系,作為語音識別的功能點更容易理解。
聲紋識別,聲紋識別的理論基礎是每一個聲音都具有獨特的特征,通過該特征能將不同人的聲音進行有效的區分。聲紋的特征主要由兩個因素決定,個是聲腔的尺寸,具體包括咽喉、鼻腔和口腔等,這些器官的形狀、尺寸和位置決定了聲帶張力的大小和聲音頻率的范圍。第二個決定聲紋特征的因素是發聲器官被操縱的方式,發聲器官包括唇、齒、舌、軟腭及腭肌肉等,他們之間相互作用就會產生清晰的語音。而他們之間的協作方式是人通過后天與周圍人的交流中隨機學習到的。聲紋識別常用的方法包括模板匹配法、近鄰方法、神經元網絡方法、VQ聚類法等。
情感識別,主要是從采集到的語音信號中提取表達情感的聲學特征,并找出這些聲學特征與人類情感的映射關系。情感識別當前也主要采用深度學習的方法,這就需要建立對情感空間的描述以及形成足夠多的情感語料庫。情感識別是人機交互中體現智能的應用,但是到目前為止,技術水平還沒有達到產品應用的程度。
哼唱識別,主要是通過用戶哼唱歌曲的曲調,然后通過其中的旋律同音樂庫中的數據進行詳細分析和比對,后將符合這個旋律的歌曲信息提供給用戶。目前這項技術在音樂搜索中已經使用,識別率可以達到80%左右。
語音識別現狀和趨勢
目前來看,語音識別的精度和速度比較取決于實際應用環境,在安靜環境、標準口音、常見詞匯上的語音識別率已經超過95%,完全達到了可用狀態,這也是當前語音識別比較火熱的原因。隨著技術的發展,現在口音、方言、噪聲等場景下的語音識別也達到了可用狀態,但是對于強噪聲、超遠場、強干擾、多語種、大詞匯等場景下的語音識別還需要很大的提升。當然,多人語音識別和離線語音識別也是當前需要重點解決的問題。
學術界探討了很多語音識別的技術趨勢,有兩個思路是非常值得關注的,一個是就是端到端的語音識別系統,另外一個就是G.E. Hinton近提出的膠囊理論,Hinton的膠囊理論學術上爭議還比較大,能否在語音識別領域體現出來優勢還值得探討。
端到端的語音識別系統當前也沒有大規模應用,從理論上來看,由于語音識別本質上是一個序列識別問題,如果語音識別中的所有模型都能夠聯合優化,應該會獲取更好的語音識別準確度,這也是端到端語音識別系統的優勢。但是從語音采集、信號處理、特征提取、聲學模型、語音模型、解碼搜索整個鏈條都做到端到端的建模處理,難度非常大,因此現在常說的端到端的模型基本還是局限于聲學模型范疇,比如將DNN-HMM或者CNN/RNN-HMM模型進行端到端的優化,比如CTC準則和Attention-based模型等方法。事實上,端到端的訓練,可以把真實場景的噪聲、混響等也作為新特征來進行學習,這樣可以減少對于信號處理的依賴,只是這種方法還存在訓練性能、收斂速度、網絡帶寬等諸多問題,相對于主流的語音識別方法還沒有取得明顯的優勢。
本文以科普為主,非常感謝國內語音識別領域各位伙伴的支持,文中若有不足之處,期待大家的指正!
【參考文獻】
1.Deep Learning:Methods andApplications,Li Deng and Dong Yu
2.Automaitic Speechand Speaker Recognition: Large Margin and Kernel Methods, Joseph Keshet andSamy Bengio
3.Xuedong Huang, Alex Acero, Hsiao-wuenHon, Spoken Language Processing
4.Lawrence Rabiner,Biing-Hwang Juang, Fundamentals of Speech Recognition
5.Dan jurafsky andJames H. Martin, Speech and Language Processing
6.Dynamic RoutingBetween Capsules,Sara Sabour,Nicholas Frosst,Geoffrey E. Hinton
7.https://en.wikipedia.org/wiki/Speech_perception
8.http://www.speech.cs.cmu.edu
9.http://htk.eng.cam.ac.uk/
10.http://kaldi-語音識別.org/
11.https://www.microsoft.com/en-us/cognitive-toolkit/
12.http://www.soundpi.org/
本站文章版權歸原作者及原出處所有 。內容為作者個人觀點, 并不代表本站贊同其觀點和對其真實性負責,本站只提供參考并不構成任何投資及應用建議。本站是一個個人學習交流的平臺,網站上部分文章為轉載,并不用于任何商業目的,我們已經盡可能的對作者和來源進行了通告,但是能力有限或疏忽,造成漏登,請及時聯系我們,我們將根據著作權人的要求,立即更正或者刪除有關內容。本站擁有對此聲明的最終解釋權。