「Hi Google」、「Hey Siri」、「小度小度」、「理想同學」……
隨便列舉幾個智能語音的喚醒詞,會發現大多雷同。時間久了,總會感到疲倦。
從技術的角度看,這些喚醒詞其實是經過「篩選」,是為了保證足夠的喚醒率。在技術提升之后,新的喚醒方式出現了,不再執著于加上前綴,而是用多樣性或者自定義來實現,自定義的喚醒詞開始能夠滿足用戶的個性化需求。? ? ?
這樣還不夠。如果想讓機器變得像人一樣,發展過程中必須摸索怎樣的人機交互在流暢的同時,還能保證語音對話不輸人人之間交流。換一個角度想,如果一定要對著機器說:「我要 xx……」,可能會很奇怪,加上一個喚醒詞會更加合適。但是當場景里只有兩個人的時候,這樣的喚醒詞會顯得很多余。
瞄準這樣的需求,汽車內這種獨特場景下的「語音免喚醒」應運而生。
車內的場景比較單一,不少人將喚醒詞視為累贅,并努力將其消除掉,力求保證人機交互的流暢性。但同樣有人提出質疑,認為免喚醒在目前階段還不成熟,它會制造更多的麻煩。
那么,這項功能到底靠不靠譜?
一個偽需求?
不需要所謂的喚醒詞,就能夠控制車載系統部分功能,是語音免喚醒最大的優勢。
用通俗的話講,只要后臺的語音一直保持「在線」狀態,就像一位忠誠的朋友安靜地在你旁邊待著,一旦收到你的命令就立馬去執行一樣。只不過,你只有說出它能聽懂的詞才可以。
舉個最直觀的例子,假如我們要去雍和宮,之前用語音發出指令是這樣的:
「你好 xx(喚醒詞)」;
「我在」;
「我要去雍和宮」
「好的,已為您規劃路線,是否開始導航?」
加上語音免喚醒之后,變成這樣:
「我要去雍和宮」
「好的,已為您規劃路線,是否開始導航?」
由于減少了喚醒這一步驟,語音交互效率能夠有效提升。這也是為什么大家都希望上線語音免喚醒功能的原因。相比最開始的做法,直接說出指令的感覺要好太多,同時也避免了人機交互過程中的生硬。? ? ?
「所見即所說。」一位業內人士對免喚醒功能給予了高度評價。
可以確定的一點是,語音免喚醒在技術上可以實現,但做到極致的用戶體驗是非常有難度的。核心問題就是對誤報的控制,在保證低誤報情況下做到高精度免喚醒是難點。
據極客公園(ID:geekpark)了解,長安福特 Active,哈弗 H6、新寶駿 RM-5、理想 ONE、吉利博越等車型均已搭載免喚醒功能,但各家其中的技術方案并不完全相同。在傳統汽車向智能汽車轉型的過渡時期,更多互聯網相關的新科技也逐漸搭載在車上。因此,這也成為了互聯網企業、科技公司,或者技術供應商們爭奪全新市場的絕佳機會。? ??
即便有車型搭載、以及眾多供應商支持這項功能,但不可否認的是,這仍然是一項較小眾的功能。有業內人士向極客公園表示,車企之所以不搭載語音免喚醒,是擔心用戶在使用過程中觸發誤喚醒,導致體驗變差,甚至會認為是「偽需求」。
「像 Siri 一樣,有時候不小心就會喚醒 Siri 出來,其實讓操作更加麻煩,如果在車內,誤喚醒可能會有安全隱患。」上述人士說到,車企沒有用上語音免喚醒功能,主要是出于安全方面的考慮。
另一方面,由于語音免喚醒需要車機在后臺時刻保持在線的狀態,如果在車內兩人聊天時誤喚醒,導致導航偏離目的地,對用戶體驗也是很大的傷害。
使用語音免喚醒功能的廠商,對此則是另一番解釋。
「目前語音免喚醒瞄準的是高頻操作來設計,恰恰是對語音交互效率非常大的提升,」上海博泰終端軟件中心執行總監王小華向極客公園表示,在車內使用比較多的語音交互是導航、娛樂這樣的訴求,如果經常使用的話,免喚醒就是一語中的,比需要喚醒詞的兩步操作體驗要好很多。上海博泰成立于 2009 年,在車聯網領域研究多年。最近,博泰推出了「隨身車聯網」的概念,借助手機的算力,但應用都在車機上操作,讓用戶的手機變成一款車機。與車企深入合作的眾多功能中,語音免喚醒也算一個不小的亮點。? ? ? ? ? ? ??
王小華認為,之所以許多車企沒有使用語音免喚醒功能,是因為大家對于體驗的理解不同。比如誤喚醒率的指標,車企對于語音功能的偏好上都不一樣。而博泰的出發點在于,怎樣找到車內交互最高效率和誤喚醒之間的平衡點。
另外,雖然純技術上沒有難點,但從技術到產品的過程中,還是暗藏了不少的「坑」。怎樣設計喚醒詞、哪些場景需要用到哪些技術去匹配,或者對于未來產品的考慮,都能對體驗產生影響。
鑒于人類在互相溝通過程中不會重復喊對方(相當于喚醒詞),所以免喚醒,直接說出指令是更符合人們自然交互的,相信這個功能最終也會推廣開來,而不是變成所謂的「偽需求」。
從「有用」到「會用」
在車內,免喚醒詞分為兩類。
一種叫全局免喚醒,只要不息屏,在任何時間說出免喚醒詞,都可以被識別。比如「導航到 xx」或者「我要聽 xx」,打開某個應用也可以直接喊出。
另外一種是場景免喚醒,也叫應用內免喚醒,只能在某個應用里說出免喚醒詞才有用。在音樂應用里說「上一首」、「下一首」,在導航界面說「放大地圖」、「縮小地圖」,「地圖概覽」等,都可以直接實現。
如同上文提到的一樣,兩類喚醒都需要通過免喚醒詞的識別來判斷,「我要去」這三個字就相當于關鍵字,當用戶說出關鍵字/詞,系統直接被喚醒,進而完成指令。? ? ? ? ?
并且,因為觸發免喚醒詞無需連接到云端,在本地就可以完成識別,所以響應速度更加快速,也不存在汽車「持續監聽」車內人們的對話的隱私問題。當需要聯網時,比如搜索歌曲或者目的地,系統才會連接云端。
百度車聯網在接受極客公園采訪時表示,百度的免喚醒技術目前已應用于福特、長城、EXEED 星途等品牌的多款量產車型。
其中,場景免喚醒主要應用于導航、音樂等高頻場景,可覆蓋用戶 70% 以上的日常使用需求,且覆蓋場景仍在持續增長中。全局免喚醒主要應用于整個用車的過程中使用的功能上,如車控類需求。? ? ??
技術上,百度通過算法優化、響應限制等方式,可以很好的對誤喚醒進行控制,從而為用戶帶來更好的體驗。此外,得益于百度的 NLP 技術,百度在免喚醒詞的泛化方面具備更為突出的優勢,可以理解更多自然的表達方式,從而讓免喚醒得到用戶更廣泛的使用。
對于用戶的感知問題,廠商們也在發力。「我們通過新手教育、屏幕引導、上下文引導等方式,加強對用戶語音交互習慣的培養。」百度車聯網表示,百度車聯網已上線了喚醒后引導、核心頁面引導 、事件關聯引導等方案,即用戶喚醒后提示用戶可用的表達,在首頁、地圖等核心頁面提示用戶可以如何通過語音調用服務,根據用戶目前的操作,提示用戶下次可以如何通過語音對話來完成。我們希望通過直接告訴用戶怎么使用,來豐富用戶的語音表達,從而實現從「有這個功能」到「用戶會用這個功能」。??? ? ?
??
以識別做喚醒
一項強科技屬性的功能在車上率先使用,而不是在手機上,這也許還是頭一遭。
智能語音交互出現于手機,普及于智能音箱,這兩個硬件品類到現在都沒能搭載語音免喚醒功能,看起來有點反常。
但是,如果把這項功能放在場景中去看,會發現汽車與語音免喚醒搭配的天衣無縫。
「產品和技術上都沒有特別大的差異,只是場景不同,導致這樣的區別發生。」王小華告訴極客公園。汽車本來就是一個密閉的空間,系統不需要長時間被打擾。相反,手機和智能音箱更多處于一個開放的環境,很容易受到噪音的干擾,如果搭載語音免喚醒功能,很有可能導致用戶體驗大幅下降。? ? ?
存在差異的同時,三個場景的不同也開始讓功能慢慢融合。百度在 2019 年推出的全雙工免喚醒能力,可以達到「一次喚醒,多輪交互」,并宣稱很快就能在量產車型上落地。極客公園了解到,騰訊云小微也在嘗試類似的能力,在一次喚醒之后,系統有 90 秒的持續喚醒,在這段時間內用戶無需再次說出喚醒詞。
在百度方面看來,全雙工免喚醒能力和語音免喚醒功能各有優勢,兩種方式結合,優勢互補,才能實現更好的體驗。
沒有完美的解決方案,以目前的技術發展程度而言,兩種方式的結合也許更容易被人接受,在線和離線時刻都可享受語音交互的便利性。在全雙工免喚醒能力上車后,百度將在量產版繼續規范,如加強語義的理解能力,當系統解析后發現人們在閑聊則不為響應,以此達到精確辯識的目的。
博泰目前在語音方面進行嘗試,即完全的全局免喚醒。「現在的技術是以喚醒來做識別,我們正在嘗試以識別做喚醒。」王小華向極客公園表示,現在只是匹配了一些喚醒詞的模型,只要說出關鍵詞就自動喚醒,未來可以以任何方式說出指令,系統自動辨別是閑聊、打電話,還是控制車輛。
以上,可以看出大家的發展方向殊途同歸。再向前看,多模態交互已經初現端倪。
2018 年 CES 上,Nuance 宣布為其 Dragon Drive 汽車平臺推出新的人工智能功能。除了 Just Talk 這個語音免喚醒功能之外,Nuance 還提出了更大膽的想法:凝視檢測。根據多模態交互,系統可將眼睛軌跡和頭部角度與精確的汽車定位,以及 3D 環境建模相結合,以跟蹤用戶的注視。當用戶查看車輛內外的對象,并隨便說出它,比如一家餐廳,人工智能根據 Just Talk 功能和上下文推理,就能很明確地知道用戶想知道的是什么。? ?
諸如地平線、百度等公司,都在向多模態交互嘗試。根據唇部的動作,系統能識別出用戶說的話,并分析語義是否為指令。
在自然交互中,語言傳遞的信息只占一小部分,通過手勢、動作、表情等傳遞的信息占到大部分,所以未來的交互趨勢絕不僅限于語音這一方面,一系列動作都將成為我們在車內的「喚醒詞」。
責任編輯:王訓魁








