引發Google、亞馬遜互懟!會自己笑出聲的智慧音箱技術探密

文|DeepTech深科技
恐怖穀理論示意圖

當你正坐在家裡的客廳,突然聽到了一個巫婆般的笑聲傳來,你會怎麼做?起身查看是否有人闖入?打電話給朋友?默念阿彌陀佛?其實沒有這麼麻煩,只要把你家智慧音箱的插頭拔掉就行了。

幾天前,亞馬遜的智慧語音助手 Alexa 莫名其妙發笑,因為實在太令人發毛,這些案例立刻在社交媒體上快速流傳而成了大新聞,人工智慧想要跨越恐怖穀(Uncanny Valley)仍然不容易。

其實智慧音箱出現一些「搞笑」或「瞎搞」的事件,Alexa 並不是第一次,也不是唯一的一個。之前一名美國電視主播在說明一個小女孩意外通過 Amazon 的智慧音箱 Echo 訂購娃娃屋的新聞時,隨口說了一句「我好愛這名說『Alexa,給我一間娃娃屋』的小女孩!」,竟然喚醒了許多觀眾家中的 Echo,集體下訂娃娃屋!

德國還有個更好笑的案例,Echo 不知為何自己啟動,在午夜大聲播放音樂,但因為屋主不在家,被吵得不耐煩的鄰居只好報警,員警破門而入才把吵人的 Echo 關掉,真有夠興師動眾。另外,小米的「小愛同學」、阿里巴巴的天貓精靈也都曾被國內媒體報導經常答非所問,更不用說亂扯出了名的 Siri。

 

為什麼 Alexa 笑了?

這些「智慧」音箱鬧出的笑話隨便都可以列出個十幾件,回到正題,究竟是什麼讓 Alexa 笑了?

亞馬遜官方針對此次巫婆笑事件做出回應,指出主要原因是當使用者在說著其他語言時,Alexa 錯誤聽到「Alexa,laugh」(Alexa,笑)這個詞,因此亞馬遜已經更改指令,以「Alexa,你能笑嗎?」取代先前的「Alexa,笑」,同時也替換了 Alexa 的回應,Alexa 會先說,「是的,我可以笑」,之後才會發出笑聲,而不是什麼都不說就直接大笑。

 

從亞馬遜檯面上的解釋來看,我們可以合理認為 Alexa 就是把非英語的語言「誤聽」為英語,然後以為使用者在下指令,說得直白點,就是語音辨識錯誤。亞馬遜只強調了後續的解決方式,對於發生機器「故障」的原因並未深入闡述,沒有一個處理過程是在客戶終端上執行,外界也沒有辦法查看 Alexa 內部究竟發生了什麼事,因此究竟是如亞馬遜所言的小故障問題,還是陰謀論一點的想法如程式病毒、被駭客入侵,真相只有亞馬遜知道,但是,此事件反應出幾個問題,以下 DT 君將從智慧音箱的現有技術瓶頸,下一步會走往什麼方向,以及躲不掉的安全疑慮三個面向來深度討論。

 

錯誤喚醒的比例仍高

語言一直是很複雜的領域,儘管語音辨識在近年的發展有很好的突破,各家參與競賽的分數也不斷創高,但是,實際應用在生活上,語音技術顯然仍有不足之處,否則就不會把 A 語言誤聽為 B 語言,而且每個人講話的口音也不同,同樣影響語音辨識率,使得智慧音箱無法正確識別用戶到底在講什麼,未來這個問題非常有可能會被放大,例如聽不懂亞洲人講的英文,進而扯上種族歧視的大問題。

改善語音辨識效果,對企業來說是一個持續性的工作,知名的語音辨識公司科大訊飛接受 DT 君採訪指出,改善語音辨識效果主要有三個方式:一是不斷優化麥克風陣列聲學演算法的處理效果,提升處理後的語音品質。二、通過不斷收集使用者的資料來優化使用者的識別模型,甚至做個性化定制模型來優化效果。第三就是通過更好的語音辨識建模方式,來實現語音辨識效果的提升。

 

由於智慧音箱是聯網設備,可以通過空中下載技術(OTA,Over-The-Air)自動升級成最新的演算法版本。在第二和第三點部分,目前各家音箱方案的語音辨識都是基於雲計算,可以通過後臺升級使用者的識別引擎來實現,不會對用戶造成額外的工作負擔。

 

雞尾酒會效應仍難解

另一個雞尾酒會效應問題,可說是智慧音箱產品都有的問題。什麼是雞尾酒會效應(cocktail party effect)?早在 60 年代,英國心理學家 Colin Cherry 提出這種人類聽覺有選擇能力的特質,例如在一個派對上,夾雜著眾人談話的聲音、音樂聲、酒杯碰撞聲,但是在這些環境音的干擾下,人類還是可以針對跟自己有關或是注意的聲音特別關注,或是當有人喊你的名字,你依舊聽得很清楚。

 

在去年的美國「超級盃」比賽,Google 為推廣自家的音箱做了一支廣告,強力在比賽期間播放,沒想到卻換來用戶抱怨連連,因為只要當廣告人物說出「Okay Google」,用戶家中的 Google Home 就不斷被喚醒,用戶不堪其擾,這就是雞尾酒會效應問題。像是 DT 君擁有一個 Google Home 設備,當 DT 君在講電話時,Google Home 也常常自動莫名其妙被喚醒,誤以為你在跟它講話,同樣的,iPhone 上的 Siri 也有類似問題,這種「誤聽」而被喚醒的比例仍相當高。

目前要對智慧音箱下指令,多半必須靠近它說話,為「近場」語音交互,但是,在一個吵雜的環境,智慧音箱如何識別出是誰在講話?而且是在「對它」講話?一堆人都在下指令,到底要聽誰的?機器必須知道了,才能對於語音的內容做出反應,但對於這種「遠場」語音交互的識別度問題不僅限於智慧音箱,也是居家機器人、服務機器人目前遇到的挑戰。

國內專攻遠場語音交互硬體方案的聲智科技創辦人陳孝良指出:「雞尾酒效應依賴現在的技術暫時解決不好,可能還需要 2~5 年的週期,需要一些前沿技術的突破」,他進一步解釋,解決雞尾酒會效應至少需要兩個基礎條件:一是基本原理和模型的進步,包括了人耳聽覺和機器學習研究,二就是海量有效資料的積累,這兩個條件都還需要時間。

 

科大訊飛也指出了類似的看法,「雞尾酒效應目前解決起來難度仍然比較大,音箱上還不能支持」,訊飛以深度神經網路的語音增強方案在這方面已經有一些進展,不過預計還要 3 年左右的時間才能真的解決雞尾酒效應。

因此,從解決痛點的角度來看,雞尾酒效應是一個還有很大開發潛力的市場,也是大企業和初創公司的商機所在。

 

智能音箱的下一步

雖然智慧語音助手在現階段仍有不夠完美之處,但是語音交互的趨勢已經十分確立,Future Today Institute(FTI)最新出具的 2018 年前沿科技報告就點名,Siri、Google Assistant 這樣的數位語音助手正在變得無處不在,「預測到 2021 年,有超過一半的計算都將通過語音完成,」FTI 創始人 Amy Webb 說。

因此,要改善使用者體驗,實現音箱越來越智慧是毋庸置疑的,怎麼做?DT 君認為有兩個方向正在成形,一是個性化、情感人工智慧(Emotion AI)的加入,二是聲紋識別(voiceprints)的應用擴大。

 

情感人工智慧

個性化這件事在互聯網世界已經被應用的十分普遍,電商購物會依據你的購買歷史進行商品推薦,社交平臺會依照你過往的點擊內容,把你可能感興趣的媒體內容、廣告優先投放到你的眼前,甚至是交友軟體 Tinder,都使用了個性化功能來推薦使用者可能會喜歡的物件。

 

智慧音箱勢必也會往這個方向走,可以針對用戶的發音習慣、常說的內容,定制優化使用者的個性化語音辨識模型,讓使用者的交互成功率越來越高,同時通過使用者的交互資料做行為和愛好分析,來針對用戶構建用戶畫像,做個性化的推送。

智慧音箱的下一步發展,個性化是第一階段,那麼,情感智慧就是進階版。

情感人工智慧也稱為情感計算(affective computing),讓機器能夠偵測、分析、處理和回應人們的情緒狀態和心情。「預計在 2022 年之前,你的個人設備將比你的家人更瞭解你的情緒狀態,」知名調研機構 Gartner 研究副總裁 Annette Zimmermann 指出。

用聲音做情緒分析,並將其落實在商業應用中,不算是一個新概念,例如把用戶與金融業客服人員的通話,讓人工智慧判斷用戶的還款意願,IBM 沃森也有一個客戶互動音調分析(Tone Analyzer for Customer Engagement)功能,讓人工智慧通過人的聲音推測出相應的情緒,沮喪、興奮、禮貌、同情等,讓企業打造更好的客服服務。

從 MIT 媒體實驗室獨立出來、知名的人工智慧公司 Affectiva 就是從表情、聲音、手勢等多維度來研究情感人工智慧,聯合創始人 Rana el Kaliouby 就指出,當人類已經開始和 AI 產生關係,教會它們回應我們的感覺,就變得至關重要。例如,當一個用戶很難過跟蘋果 HomePod 說出心裡的秘密時,HomePod 應該要能給予安慰。

 

另外,亞馬遜的 Alexa 團隊已經開始分析用戶的聲音,以識別他們的心情或情緒狀態,播放不同風格的音樂,並讓使用者能夠願意跟語音助手進行更長時間的對話,進而發展出更好的情感人工智慧。

 

聲紋識別的野心

使用者與智慧語音助手的溝通不靠觸控顯示幕,而是利用語音交互,因此使用者的聲音反而成為非常重要的資料,尤其是聲紋被認為具有獨特的生物特徵,就像人的指紋、虹膜一樣,目前採用聲紋識別技術的領域多在電信及金融行業,以取代個人密碼、PIN 等,而智慧手機以及智慧音箱是語音交互最直覺化的設備,用於喚醒設備並登錄每天使用的服務或應用程式,因此被視為是最有潛力的應用情景。

目前聲紋識別的主要應用行業(資料來源:Opus Research)

目前智慧音箱已經支援了聲紋識別技術,像是天貓精靈基於聲紋識別技術,推出聲紋購,是第一個商用的聲紋購物系統,使用者購物、充值時,只需要說出聲紋密碼,聲音識別系統將對身份進行校檢,確認是本人後就可完成交易。

除了生物識別之外,聲紋識別也是用以改善音箱體驗的一項熱門技術,不少企業借此自動判斷說話人的身份、年齡、性別來實現個性化點播,也能減少音箱被錯誤喚醒的機率。陳孝良就指出,情緒判斷和場景判斷也是正在研發的技術,不過這些新的特徵穩定性還不夠,也包括聲紋識別,但是有一點是很明確的,隨著產品不斷上量,產品技術的反覆運算也會更加迅速,多資料的融合將讓機器看起來更加智慧。

亞馬遜在今年美國超級盃的廣告,強調 Echo 設備不會被廣告騷擾,消遣 Google 一番。

前面提到了 Google 因在超級盃播放的廣告惹惱了用戶,到了今年的「超級盃」,Google 的死對頭亞馬遜就刻意做了一支廣告,在 90 秒的廣告裡不斷呼喚 Alexa,而且還對用戶喊話:「請放心,你們的 Echo 設備不會被廣告騷擾」,擺明瞭消遣 Google。

為什麼亞馬遜能如此有信心,原因就在於使用了一種名為「即時聲音指紋識別」的技術(Real-time Acoustic Fingerprinting Technology),能分辨哪些聲音來自廣告、哪些才是使用者的真正指令。

其實亞馬遜在 2014 年註冊了一項「語音指令過濾」(Audible Command Filtering)技術專利,防止 Alexa「在部分有大批觀眾的電視轉播,如大型體育賽事時」被喚醒,採用了兩種做法,一是在廣告播出前,就先把部分片段傳到 Echo,讓 Alexa 比較並分辨哪些語音指令才是真實發出,另一種則是讓廣告發出一種人類聽不見、但 Alexa 可以捕捉的信號,告訴它直接忽略這個喚醒指令。

 

而即時聲音指紋技術建立在 AWS 雲服務上,當多個設備開始被廣吿、廣播同時喚醒時,類似的音訊會即時串流到 Alexa 的雲服務,演算法會偵測來自不同設備的音訊吻合度,以防止其他設備被喚醒,「動態指紋還不完美,但基於這項技術,有 8~9 成的設備不會因為電視廣告而被喚醒。」亞馬遜語音辨識主管 Manoj Sindhwani 強調。

不過,以聲紋識別改善用戶使用體驗,只能說是前段,其實各家企業都有著更大的野心,醫療照護就是一個新世界,家中的智慧音箱不僅可以偵測到你的情感,也可能偵測到與特定疾病相關的特徵,包括心理的抑鬱症、躁鬱症、創傷症候群、或是帕金森病、心臟病等,未來甚至還可能與醫療保費設計掛鉤。

亞馬遜就與一家以色列初創公司 Beyond Verbal 合作開發一款分析工具,希望通過 Alexa 分析使用者的聲音,進而判斷其健康狀況,像是偵測病患的沮喪情緒,未來甚至還可能診斷疾病,例如偵測心臟病等慢性疾病,另外像是國內一家初創公司逸善舒晨,也是鎖定以醫療人工智慧+聲音做「病理聲音」的研究,像是抑鬱症。

 

Rana el Kaliouby 認為,帶有情感的語音助手或機器人可用于檢測疾病並加強健康行為,不過,她也直言「還有很多工作要做。」特別是,醫療行業不論是在技術導入或驗證有效性方面,都採取相當嚴謹的標準和規範,因此這方面的研究仍在初期的研究階段,只是 Amazon、Google、蘋果等巨頭已經大動作切入醫療行業,相信他們的長期研發藍圖裡肯定有這一個選項。

 

安全性漏洞:不是閉上眼就沒事

「智慧」音箱鬧出的笑話隨便都可以列出個十幾件,而有些事恐怕不是好笑而已,例如安全及隱私問題,先不談這些智慧音箱是否 24 小時都在偷聽你講了什麼話,甚至是像科幻小說劇情可能謀害你等諸如此類比較陰謀論的想法,因為目前仍難以查證,那就談一個非常實際、現在就有可能出現的問題:駭客入侵,黑用你的智能音箱來搗亂,亂播音樂吵你、發出笑聲嚇你,而且音箱定位為智慧家庭的中樞,可以跟居家設備整合,所以隨意開關你家的電燈、空調也是很容易,甚至是盜用帳號購物、竊取個人資料等。

Alexa 發笑事件被大家關注,多半是因為亞馬遜的名氣、以及 Echo 是目前智慧音箱市占率最高,但在此之前,其實音箱自己笑出來、播音樂的案例就已經發生,存在安全性漏洞更是事實。資安公司趨勢科技在去年底發佈了《針對性攻擊的聲音》(The Sound of a Targeted Attack)報告,測試了兩款音箱:Sonos 的 Play:1(以亞馬遜的 Alexa 為核心)以及 Bose 的 SoundTouch,發現暗藏的安全性漏洞會暴露使用者資料,以及可用於展開攻擊的資訊,包括阻斷服務(DoS)漏洞。

當駭客想要入侵一部主機/一個設備時,會通過一些掃描技術去測試此設備上有哪些通訊埠埠是開啟的,也可以使用 Shodan,也就是俗稱駭客界的暗黑搜尋引擎,Shodan 會定期對各類設備埠號產生的系統旗標資訊(Banners)進行審計,進而找出所有連線到網際網路(Internet)上的設備,在 Shodan 上可以找到在特定國家、經緯度、IP 位元址範圍的網路攝影機、印表機、智慧家居設備,當然也有智慧音箱,趨勢的資安人員也使用了 Shodan,可以看到數千台使用中的 Bose 和 Sonos 音箱分佈在哪些國家。

趨勢的資安人員使用 Shodan,可以看到數千台使用中的 Bose 和 Sonos 音箱所在地。(資料來源:趨勢科技)

趨勢科技的測試報告指出,一個很簡單的通訊埠開口就能讓任何人可以存取設備,取得使用者資訊,例如使用者往往把音箱跟音樂串流服務如 Pandora、Spotify 對接,因此駭客可以拿到你用來註冊音樂串流服務的電子郵寄地址,以及使用同一網路的其他設備的清單。

圖|駭客可以根據目標的音樂偏好發送定制的釣魚郵件。(資料來源:趨勢科技)

此外,工程師在測試時也取得了音箱所連接的 WiFi 無線基地台的 BSSID 資訊,並且利用 Alexander Mylnikov 博客開發的公共地理位置 API,查詢這些特定的 BSSID,就能抓出音箱所在的經緯度,再搭配 Google 地圖看到大致的地理位置。同時,也能看到設備上進行的活動,例如正在播放的歌曲,甚至是可以遠端控制設備。

在掌握了上述的方法後,趨勢的測試人員想知道是否可以得知更多的個人資訊和居住地區,因此他們隨機選擇了一個 Sonos 音箱展開近一步測試。在 Shodan 搜尋引擎網站上,他們發現科羅拉多州有 6 個對外暴露的音箱,他們隨機選了一個,這個音箱連接到 Pandora 帳號,因此取得了註冊這個 Pandora 帳號的 Email,接著他們把這個 Email 與 Pipl、Facebook 進行交叉查找,(Pipl 是一個依據公開信息來定位人員的線上搜索工具),也用 FamilyTreeNow.com 網站查看是否可以找到此人可公開取得的身份資訊(PII)或位址,他們還真的找到了一些可能性頗高的地址。然後他們再用 SSID 方式查找上網的地點,比對兩地是否為同一地。果然,那個地址就映射在 SSID 位置的旁邊。

將可能的位址與 SSID 位置進行比對。(資料來源:趨勢科技)

當然,這個測試調查是來自白帽駭客,所以在測試結束後,趨勢已與 Sonos 聯繫,修復了安全性漏洞,也不會透露測試個案的身份,但是,這些看似很小的漏洞,其實只要利用網路上各種公開的查找工具,就可能演變成很大的問題,除了知道你家地址,隱私遭侵犯,甚至引發危及人身安全的社會事件。

可惜的是,目前看來,智慧音箱的企業似乎刻意不談論這方面的問題,也鮮少看到他們主動強調資安的防護方式,多半是資安公司發現了漏洞,智慧音箱企業才發佈補丁,這就像是明知道高風險可能發生,但大家都蒙著眼似的看不到,因此,DT 君想提醒消費者一件事,一定必須要有危機意識,說白了,智慧音箱是這些大企業為了讓你習慣依賴他們的手段,但此類產品給予使用者的控制權其實很小,不像個人電腦能根據自己的喜好進行修改和監控,可以使用診斷軟體、活動監視器,或者嘗試找出 bug 在哪裡,為其安裝修補程式,因為企業若不再開始重視資安問題,下次你的智慧音箱再大笑出聲,很可能不再只是一場誤會而已。

本文係由DeepTech深科技授權刊登。

更新時間|2019.03.21 05:16

鏡週刊訂閱制上線,讓有價的閱聽成就更多優質文章,並獻上無廣告的閱讀環境,讓您盡情享受15類會員專屬內容,誠摯邀請您 立即加入

即日起加入年費會員,月月抽Sony旗艦機

更多內容,歡迎鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌