犀利Siri─語音辨識的前世今生

lancom

犀利Siri─語音辨識的前世今生

( Smart Siri- Speech Recognition is booming.)

撰文：聯慷電子報小組整理報導

動口不動手的開端

在全球蘋果迷的引頸企盼中、漫天的iphone 5 流言下，Apple推出了改版的iphone 4S。甫推出即有來自各界正反不同的評價。其中一致好評，受到多方矚目的新功能，是內建的Siri智慧型語音助理。他是人工智慧、自動學習(continual learning)加上情境感知系統(contextual awareness system)的綜合體，Siri可以被視為真正的「綜效」，幾個沒有新意的東西加在一起，產生Siri這個前所未聞的產品。傳統的輸入系統，可能要花很多時間搜尋以及步驟才會找到結果，而且要全部做完才能找到結果，透過Siri，他會幫你直接略過中間所有步驟直接到結果。能理解你所說的，瞭解並學習各人化的資訊，進而完成要求的事情。

如同Apple所發表的Siri介紹影片，慢跑的人，能夠邊跑步邊回覆簡訊；開車的人能打電話給朋友，告知到達時間；視障朋友能輕鬆回覆訊息等，透過口說即完成事情，讓人不禁想到小時候看李麥克的霹靂車夥計，你我都可輕鬆擁有了!

何謂語音辨識

語音辨識（Speech Recognition）最主要的目的是希望電腦聽懂人類說話的聲音，進而命令電腦執行相對應的工作。當聲音藉由類比到數位的轉換裝置輸入電腦內部，並以數值方式儲存後，語音辨識程式便開始已事先儲存好的聲音樣本與輸入的測試聲音樣本進行比對工作。比對完成後點腦集輸入一個它認為最“像”的聲音樣本序號，就可以知道使用者剛剛唸進去的聲音代表何意，進而命令電腦做事。

語音辨識之技術分類

在「辨識技術」這個領域，依辨識對象的變化程度，而有不同的困難度。
語音特性的變化因素包括
(1)不同語者的變化：聲帶特徵、說話方式、連音耦合效應、口音等；
(2)同一語者的變化：情緒、壓力、感冒、Lombard效應；
(3)噪聲：汽車噪聲、空調噪聲、電話鈴聲、印表機噪聲、多人同時講話等；
(4)環境變化：反射(Re flection)、回音(Reverberation)、麥克風特性及與語者的距離等。

圖1：即使同一個人，在不同情況、地點、情緒下，聲音也會有非常大的差異，造成語音辨識的困難。

一般把語音辨識技術，根據詞彙大小、系統訓練及發音方式做不同組合的分類。
詞彙大小分為
小字彙(小於 100 詞)、
中字彙(100 - 1000 詞)、
大字彙(1001 - 10000 詞)、
極大字彙(大於10000 詞)等。

語音辨識的作法

電腦採用數位化的語音取樣資料，對電腦而言，即使同一個人在同一個環境使用同樣的麥克風連續發出兩次同樣的語音，語音取樣資料也不可能完全相同，因此如何把語音做正確的歸類，異中求同，就是問題所在。一般常見的作法是（事先或現場）蒐集足夠的語音樣本，經過抽取適當的語音特徵（Feature Extration）之後，透過訓練程序（Training Procedure），建立參考聲學模型（ Acoustic Model）所需的參數。而在使用者辨識的階段，將輸入的語音樣本抽取語音特徵之後，和辨識字彙中的參考聲學模型比對，找出最接近的字彙，是為辨識結果。看似簡單，其實各步驟均有許多變化，尤其是聲學模型比對步驟的兩大問題：時序校準（Time Alignment）及參數模型比對。時序校準在於找出正確的聲學單位（如詞、音節、次音節、聲韻母、音素等）的起點跟終點，在連續音的情況下問題更為嚴重；這也是為什麼單字音比連音詞容易辨識，而連音詞又比整句連續語音容易辨識的主要原因。參數模型比對則在以什麼參數、多少參數建構參考模型，可以是語音原始樣本，也可以是語音特徵樣本，但更多的是離散（discrete ）或連續密度的（continuous density）機率分佈模型。

圖2：語音辨識需要學習，透過蒐集樣本、累積比對經驗，達到越來越「聰明」。

實用化語音辨識技術的考慮
在選擇語音辨識技術或產品的必須考慮的因素有下列幾點:
(1) 技術分類合適性: 詞彙大小、特定語者/非特定語者/系統調適、發音方式(單字/孤立詞/詞詞斷開/關鍵詞萃取/全句辨識)； (2) 辨識率；(3) 辨識速度；(4) 使用平台 (Platform) : 操作系統、CPU、Memory、音效卡/DSP卡、麥克風(種類與距離)； (5)成本； (6)抗噪音能力； (7) 是否透過電話線； (8) 拒認能力: 提高可靠度，寧願拒認，不要錯認； (9) 多國語言； (10) 標準應用程式介面 (API):易於開發應用程式。

語音辨識技術之應用

TMA Associates市調公司在最近的一份調查報告中，把語音辨識產品分為四大類：
(1)電腦產品：麥克風直接連接電腦，可以電腦螢幕顯示回饋辨識結果，由於電腦使用者常為固定而長時間使用，可採用特定語者或語者調適技術；應用舉例如語音聽寫、PC語音控制、語音資料存取、遊戲軟體、語言訓練等；

(2)電話產品：語音透過有線或無線傳輸給辨識器，以聲音回饋給使用者，非特定麥克風，經常為短暫交談互動，宜採用非特定語者技術；應用舉例如電話網路之語音撥號或其他辨識/驗證服務、以語音而非按鍵控制之互動語音回應系統、PC上之電話語音辨識；

圖3：最常使用、最容易應用的語音辨識產品，即是電話。利用語音辨識功能，達到互動指令的目的。

(3)消費性電子產品：麥克風為產品之一部分，小或無螢幕顯示，小包裝，常為電池供電，中低價位；應用舉例如電話機內建的語音撥號、可攜式電子記事簿、電視遙控、語音撥號行動電話、聲控玩具、語言學習；

(4)汽車及工業應用產品：高噪聲環境，眼及雙手忙碌，特殊裝備需求，應用免手持麥克風；應用舉例如汽車導覽系統、收音機控制工業品管、包裝處理、車用行動電話等。

語音辨識技術的拓展與研究已有多年，各地的研究室也因為電腦系統的快速發展，處理效能與速度不斷增加，使得語音辨識的功能與應用，也不斷拓展開來。應用在行動語音設備上，Apple並不是先驅，但在對的時間(iphone迷的追求與支持)下乘勢推出，雖然目前仍有許多地方未逮，還是受到廣大使用者的青睞，不惜重金也要率先體驗嘗試。而更進階、更聰明的語音辨識應用，已經指日可待，不遠了。

參考資料：
http://www.ascc.sinica.edu.tw/nl/87/1407/04.txt
http://www.quora.com/Siri-product/Why-is-Siri-important
http://www.inside.com.tw/2011/10/12/iphone-4s-siri
http://ace136.auto.fcu.edu.tw/~cslin/scteach/scteach88/Tidsp/n5.htm

如需更進一步的資訊與服務，請洽聯慷事業發展部！

Back ‧‧‧‧‧

TOP

編輯群：高慧雯、閻宜欣

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

我們是經由正常管道(Sales拜訪、展覽、研討會...)取得您的e-mail，如您想要取消訂閱，歡迎您來信告知！

顧客服務專線：(02)5577-9600 E-mail: express@lancom.com.tw