語音信號處理的目的就是在複雜的語音環境中提取有效的語音信息。
一、語音信號
技術思想及原理分析
語音喚醒的原理是讓模型學習特定喚醒詞的語音信號特徵,當輸入設備捕捉到一定閾值範圍內的語音信號時,當前設備將會被喚醒,否則平時設備都處於待機狀態。比如小米音箱這款產品,我們在使用的時候,一般都會喊一聲“小愛同學”,然後再讓它執行我們的命令,比如換一首歌,或者減小音量。這個“小愛同學”所發出的語音信號就是模型要學習的標籤,當模型學到一定的標籤數量時,下次再聽到這個標籤的聲音時,就會做出反應,設備也就被喚醒了。語音喚醒的方法有很多,有基於傳統機器學習的方法,也有基於深度學習的方法,這裡只分享一些目前比較流行的深度學習方法,比如有基於CNN的Keyword Spotting模型、基於CRNN的Keyword Spotting模型、基於SEQ2SEQ的Keyword Spotting模型等。無論是那種方法,一般會將先語音波形圖轉成頻譜圖,頻譜圖通過Mel濾波器組得到Mel頻譜,然後在Mel頻譜上進行倒譜分析,獲得Mel頻率倒譜係數MFCC,MFCC就是語音的特徵;這時候,語音就可以通過一系列的倒譜向量來描述了,每個向量就是每幀的MFCC特徵向量。這樣就可通過這些倒譜向量對語音分類器進行訓練和識別了。

應用場景及商業價值
目前市場上幾乎所有的智能語音產品都有語音喚醒裝置,在執行任何一句命令之前,都要加上一個關鍵詞來喚醒設備,其主要功能在於更好地執行命令,以及節能和延長設備使用壽命,如果一台語音設備沒有喚醒裝置,就意味着它無時無刻都是開機狀態的,想要對它發號施令,就要求設備的智能程度非常高才行,不然設備很難判斷你是在對它發號施令,還是在和你的朋友聊天,另外一直開機對能源的消耗和設備的使用壽命都損耗不少。

二、語音命令
技術思想及原理分析
語音命令顧名思義就是對智能設備發號施令,然後讓它執行。前面在介紹語音喚醒的時候提到過,語音喚醒和語音命令的關係,語音喚醒是讓設備處於工作狀態下,然後才會執行語音命令。所以語音命令一定是語音喚醒之後的工作,不然語音命令將變得毫無意義。語音命令主要是一些簡短的語音詞彙所組成的信息,比如打開檯燈、關閉檯燈、燈光調亮一點、燈光條暖一點等等類似這樣的帶有動詞的詞彙都可以算是命令性詞彙。其處理原理和過程也是和語音喚醒是一樣的,都是通過對人發出的聲波經過一系列的變化而得到的語音信號特徵,最後對特徵進行分類處理。

應用場景及商業價值
語音命令的應用在日常生活中也很常見,比如生活中常見的手機導航、Windows電腦程序導航、小米音箱、百度地圖導航,以及一些K12的教育產品,基本都是以語音命令來控制程序的。語音命令控制程序的優勢是方便快捷,對於老人和小孩,以及上肢行動不便的人更為方便。

三、聲紋識別
技術思想及原理分析
聲紋識別是對一個人發出的聲音和存留的聲音進行匹配,聲紋識別作為一種生物信息被應用在各種程序中作為識別密碼。它和指紋識別、人臉識別一樣,在識別前,首先需要對被識別人的識別信息進行採樣存庫,方便以後對比識別。在深度學習中,聲紋識別和語音喚醒、語音命令等其他語音操作方式一樣,都是先對接收到的聲波進行轉換,得到頻譜圖,進而使用梅爾頻譜倒數分析,進行特徵提取。

應用場景及商業價值
聲紋識別的應用主要用在一些用戶信息登錄識別驗證等敏感的場景,其作用和鍵盤輸入識別驗證、指紋識別驗證、人臉識別驗證的一樣。聲紋識別對環境的要求較高,一般來說比較安靜的環境發聲識別效果較好;反之,如果環境嘈雜,則識別驗證的效果較差。另外一個人的聲音是隨着年齡、身體狀況的變化而變化的,所以並不是很穩定。雖然聲紋識別有一些缺點,但是也有其優點,主要是聲音獲取相對容易,只要環境較為安靜,聲音的驗證也更方便,使用者接受程度較高。

四、語音識別(STT)
技術思想及原理分析
語音識別就是對發出的語音進行一系列的轉換,從波形圖最終翻譯成對應的文字信息,這個過程中有一個中間的特徵來對應兩邊的語音和文本。簡單來說就是先把語音轉成某種特徵圖,然後讓特徵圖對應到文本信息上。由於是從聲音轉換成文本,也稱為STT(speech to text)。語音轉文本的具體技術和語音喚醒使用的技術一樣,先要把波形圖轉成頻譜圖,然後根據梅爾頻率倒譜係數進行特徵提取,有了特徵就可以對應指定的文本信息了。

應用場景及商業價值
語音識別的好處是,可以代替鍵盤快速輸入文本信息。比如在某些聊天軟件上和對方溝通時,想要發送給對方的是文字信息,但是又不方便鍵盤輸入,這個時候就可以使用語音識別技術來自動將語音轉換成文字後再發送。此外,廣義的語音識別包括了所有的語音操作技術,包括語音喚醒、語音命令等一系列和語音相關的技術。

五、語音合成(TTS)
技術思想及原理分析
語音合成與語音識別的應用方向剛好相反,語音識別是STT(speech to text),而語音合成是TTS(text to speech),從二者的名稱中就可以看出,語音合成的輸入是文本信息,輸出是聲音信息。在技術上可以看成是STT的逆向操作。目前的語音合成方法主要有拼接合成語音和參數合成語音兩種。

應用場景及商業價值
雖然目前的語音合成技術還不是非常成熟,但是在一些要求不太高的應用中已經開始應用了。目前語音合成的應用主要在新聞廣播行業較為廣泛,比如搜狗AI合成主播,有了AI合成主播,就可以幫助新聞機構做一些簡單的廣播了。當然國外有人拿這個技術配合上圖像合成技術,造了一段總統講話的視頻,表情和聲音還都挺像的,不仔細甄別,還真看不出來。

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hant/n/252691.html
微信掃一掃
支付寶掃一掃