2019.07.06 06:51 臺北時間

未來靠AI抓詐騙？　聽聲音重建人類臉孔

發布時間：2019.07.06 06:51 臺北時間

更新時間：2023.09.12 20:30 臺北時間

文

MIT科技評論

已複製連結

贊助本文

互聯網網友研究 MIT AI人工智慧

不少人都擁有「偽聲」的天賦，再通過練習，可以輕易偽裝成老人、孩子，哪怕是與自己性別不符的聲音，更有甚者可以模仿動物、昆蟲，十分逼真，只憑耳朵根本無法分辨。

上網時，如果突然收到一位陌生美女的好友申請，你會不會同意？假如你添加對方為好友，她要求和你通話，你聽到她的聲音也是甜甜的。她向你尋求幫助，索要錢財，你貪圖「美色」同意了，卻不料對方真實身份是一名成年男子……

這種網路騙術層出不窮。不少人都擁有「偽聲」的天賦，再通過練習，可以輕易偽裝成老人、孩子，哪怕是與自己性別不符的聲音，更有甚者可以模仿動物、昆蟲，十分逼真，只憑耳朵根本無法分辨。
我們能從一個人說話的方式來大致推斷出他的長相？你無法辨別螢幕背後的人「是男還是女，是人還是狗」，但AI可以。
近日，來自康奈爾大學的科學家們，利用互聯網上數百萬人的線上視頻資料，設計並訓練了一個深度神經網路。模型在訓練過程中學習了視聽、音像、聲音和面部的關聯性，從而根據聲音來推測面部特徵。它可以通過一個簡短的音訊片段來重建一個人的臉部圖像，捕捉語言、口音、速度和發音等，從而推測年齡、性別、族裔、嘴唇形狀、嘴唇大小、骨骼結構等等。目前此模型只接受輸入音訊波形。
研究者提醒道，他們的目標不是重建一個準確的人的圖像，而是恢復與輸入語音片段相關的物理特徵。

此項研究成果發表在2019年的CVPR（IEEE Conference on Computer Vision and Pattern Recognition）上。其實，在2018年的大會上，就有過類似的研究了。不過當時的AI是做選擇題，在「聽」完音訊後，只能從提供的2張人臉圖片中選出說話者，並不能自主模擬。今年可謂是大大的進步。
不過，由於這個AI只接受了捕捉許多個體共有的視覺特徵（與年齡、性別等相關）的訓練，有一定的局限性。因此，他只能生成長相平平的面孔，擁有與輸入語音片段相關的視覺特徵。它無法生成特定個體的圖像。也就是說，合成的圖片看起來會有點兒「大眾臉」，沒有太鮮明的個人特徵。
一些成功範例。（左）原始圖像，即，從視頻中截取的有代表性的演講者的臉；（中）從原始圖像中提取人臉特徵，進行人臉正前方化、光照歸一化；（右）語音人臉重構，通過解碼音訊中預測的人臉特徵計算得出。可以看出，重建的臉部圖像與真實的長相還是有一定的差距。雖然可以還原部分的特徵，但卻無法準確到看起來像「一個模子裡刻出來的」。
從同一視頻中（a）從不同視頻中（b）提取同一個人的語音片段進行人臉重建。即便是同一個人，在不同的場合說話，語調、語氣也會有細微的差別。所以AI類比出來的臉部圖像也有些許的差異。
部分失敗案例（a）高音調的男性聲音，例如孩子的聲音，可能會獲得具有女性特徵的面部圖像。（b）口語與種族不符。（c、d）與實際年齡不匹配。此種AI提升的空間還很大。如果可以進一步提高捕捉聲音特徵的敏感性，將研究範圍擴展到胸腔的發聲，聲帶的震動頻率、方式，氣息的運用，語癖等，相信會得到更精準的面部重建圖像。
也有不少人提出了自己的疑惑。「聲音和外貌真的有關聯性嗎？」「頭部的三維結構編碼到一維的聲音之中，這個過程中會損失很多資訊，準確度上升到一定程度就無法再提高了吧？」「對受過專業訓練的播音員能起作用嗎？」「能從聲音感知到身高及體重嗎？」希望科學家們在今後的研究中逐步解決這些問題。
有網友評論：「如果能準確重建出配音演員的臉，這個AI就真的逆天了。」 這句話背後，是配音演員都有極強的聲音塑造能力，能夠掩蓋本來的聲音特質。
相信到了那個時候，這個AI用來對付犯罪分子早已不在話下。
本文係由DeepTech深科技授權刊登。原文連結：“火眼金睛”的 AI：透过声音看到脸