然而,這樣一來我們就得面對另一個難題,便是這些車用語音智慧產品,如何能提供優異的語音辨識品質,提高辨識率,讓機器準確接收我們的指令呢?想像一下,你載著滿車朋友出遊,在國道上高速行駛,大夥快意談笑,夾雜引擎運轉與風噪聲,可能還正好放著一首 Lana Del Rey 的《Burning Desire》,使你不自覺腳踩油門。這時車內環境噪音絕對高於 70dB(分貝),而且還夾雜不同頻率的聲音。因此,讓產品偵測說話的人並接收正確指令,是相當令人頭痛的問題。
環境噪音對語音通訊品質的影響
在語音辨識的流程中,可分為五道程序:包含語音輸入及台北松山區全套語音訊號處理、語音特徵擷取、以聲學模型(acoustic model)進行語音單元辨識、以語言模型(language model)來組織語音單元、解碼及輸出等。
目前語音助理的市場上,Microsoft 耕耘最久,Apple、Google 相繼而起,以完善智慧型手機體驗為目標;近期火熱的 Amazon Echo,其語音助理 Alexa 則一開始就以獨立的聲控家用平台為定位,建立自身生態系。以上這幾家語音助理開發商,基本上已經掌握後面四道程序。不過,一旦來到車用領域,產品裝置開發商則勢必要在語音輸入及語音訊號處理的程序上,投注更多心力。
車用語音智慧產品在車內環境中,與使用者的距離不出 0.5~1 公尺之內。一般汽車引擎發動後且車窗緊閉的情況下,車內噪音約 60dB 左右。假設使用者發出約 89dB 的聲音(即一般說話音量的平均值),此時嘴邊的訊噪比為 29dB,足以維持良好的通訊品質。但你不會想要每次下指令還得把臉貼到汽車面板前,因此 0.5~1 公尺是產品接收語音訊號的合理距離。然而,當說話聲音傳到 0.5 公尺時會衰減至 65dB,此時訊噪比只剩 5dB;說話聲音到 1 公尺時則只剩 60dB,與噪音的音量相當,更不用說上述提到高速行駛的環境下,噪音都比發出指令的人聲還要大。
符合標準的車用通訊品質
當面臨車聯網逐漸完善、語音應用普及化,越來越多車廠要台北東區全套求內建 Android Auto、Apple Carplay 等智慧助理,而這些都需要按照 ITU-T P.1110/P.1100 語音標準來設計,對代工組裝或設計加工的車用電子系統廠來說,等於是踏入未知的領域,只能以現有產品不斷偵錯找出問題,相當耗費時間。因此像是貝爾聲學這種第三方語音測試實驗室,就會從麥克風模組、連接線材等部分測試,首先幫廠商判斷選料是否正確。
貝爾聲學曾針對一款舊的車用麥克風模組進行測試,該模組配兩顆 ECM 電容式類比麥克風,一顆為全指向性,主要用來收環境音,作為背景噪音消除演算法的用途;另一顆為單指向性,收音方向指向駕駛,用來接收駕駛的語音訊號。依據 ITU-T P.1110 測試方式,得出了以下數據:
不知道為什麼…
每次經過這個地方,
她就會消失一段時間,台北西門區全套
就算找到人,
整個人就跟著魔似的叫也叫不理,
當她神智清醒的時候,
手上就會莫名其妙的瘀青,
一塊一塊紅紅的,
我真的非常擔心她啊!
奉勸有女友的各位男生,
千萬不要帶女友經過這個地方…