本文由騰訊數碼獨家發布
自從2011年Siri語音助手首次出現在蘋果iPhone 4s上以來,這種技術已經從一種噱頭大于實用的創新,變成了智能音箱的基礎技術。而現在智能音箱已經出現在了美國六分之一的家庭中,普及率相當高。
頂尖的人工智能語音技術開發公司、Nuance Communications創新主管湯姆赫伯納(Tom Hebner)在接受采訪時表示:“在Siri出現之前,當我們在介紹自己所做的事情時,對方的目光都是充滿了困惑,很多人都會問這究竟是一種什么技術,為什么會有人的聲音傻乎乎的說話。而當時這是用戶與語音技術唯一的互動方式。”
但今天的局面已經完全不同了,根據eMarketer機構的預測,到2020年,全球將有近1億智能手機用戶使用智能語音助手。盡管人工智能助手已經不再是新鮮事物,但目前來看這項技術依然還處于發展的觸及階段。想要完全實現智能語音助手作為一個普及的產品類別的承諾,其實我們還有很長的路要走。
而以下就是語音助手技術進步的五種方式,可以讓科技變得更智能、更高效,從而幫助我們過上更有效率、更方便的生活。不過今天我們進行的只是 “預測”或所謂的“愿望清單”,想要實現這些目標,依然還有很大的困難需要克服。
沒有知識,就沒有問題
亞馬遜Alexa現在可以告訴你馬來西亞吉隆坡的天氣,還可以幫助查閱貨幣轉換,甚至如何拼寫一個生僻的單詞。但從本質上來說,用戶如果擁有了一位人工智能助理,就相當于擁有了一整套最新百科全書。雖然我們可以得到想要的正確信息,但目前來看,并沒有按不同級別的專業劃分知識水平。
Hebner在接受采訪時表示:“我們家中的智能音箱所面臨的挑戰是,它們能做的事情太多,但讓人無從下手。”
這是一個很難解決的問題,但如果解決之后將改變游戲規則。Nuance公司開發了許多針對特定場景的專家系統,比如幫助航空公司回答旅客咨詢問題或幫助醫生做醫療筆記等。而這樣做不僅意味著這些系統可以向下獲取更詳細的信息,還意味著可以包含更多的智能特性。“人們對能夠理解更多的單詞含義感到非常興奮,但如果你不知道如何處理這些單詞,那么就不顯得重要了。”Hebner說。
他舉的一個例子是一個具有細微差別的系統,該系統不僅能理解醫生為病人開出的潛在藥品清單,而且還能強調潛在的重點,而這一功能就遠遠超出了大多數用戶級人工智能助理的能力。
然而,對不同領域擁有更專業的詳細知識,Alexa的其它技能也暗示了這一點,而且很有可能是具有革命性的變化。從表面上看,向更加智能的音箱尋求法律或醫療建議,這聽起來很不靠譜,但其實在法律機器人等領域我們已經取得了非常顯著的進步。而根據最近發布的一份報告顯示,蘋果希望未來Siri能夠在2021年前與用戶進行以意料健康為重點的對話。
人工智能助手的專業知識圖譜現在雖然看起來還比較虛幻,但通過最近不斷出現的語音機器人新技術來看以及人工智能報告顯示,虛擬助理的技能肌群正在迅速擴張。然而當這些技能有一天能夠進入真正的專業領域時,我們的生活會因此而受益。
更多更好的個性化服務
其實現在的智能音箱的個性化領域,還處于非常初級的階段,我們可以改變語音助手的口音和聲音性別的方式,或者添加或刪除一部分技能,并向語音助手輸入一些信息,比如用戶的名字和工作地點等信息。而在某些情況下,我們可以設置多個語音配置文件,以便讓谷歌Home之類的產品能夠識別家中的不同成員。
但這一功能,其實還有很長的一段路要走,盡管目前來看進步依然很明顯。比如Mattersight公司就開發了一種名為預測行為路線的人工智能呼叫中心技術,該技術可以分析使用者的語音模式,并將其與性格相似的人類接線員進行匹配。根據該公司的說法,與性格相匹配的人進行成功的通話,時間通常是性格不適合的人的一半。
使用類似的方法,可以讓人工智能助手以我們喜歡的方式彼此交談。這既可以是一些簡單的事情,比如匹配對方的口音和語調,或者也可以通過對某些用戶使用更有感情色彩的詞匯,而不是像對其他用戶那樣使用更密集的平淡信息,來改變或表達想法的方式。也許有些人想要一個語音助手來進行長時間的交談,而另一些人只是想要一個能以最簡潔的方式傳達必要信息的助手,而人工智能助理應該具備這兩種能力。
像谷歌Duplex這樣的技術則可以顯示出人工智能技術現在是多么的令人信服和準確的生成合成語音,并且讓對話越來越自然。作為人工智能技術來說,我們可以完成比如送歌曲請求和烹飪定時等更復雜的領域,我們期待看到這項技術發揮主要作用。
而通過語音識別用戶能力的突破可以幫助我們實現這一點。Hebner指出,Nuance公司的技術可以在一秒鐘之內通過音頻完成用戶識別。他表示:“過去語音助手需要10秒鐘的時間來了解自己是誰,才能得到準確的信息,而這種能力其實非常重要。通過一小段語音信息來識別用戶,不僅解決了密碼和身份驗證的問題,而且為使用語音助手獲取更微妙的個人信息提供了機會。
互動更積極
一個好的智能助手,會在我們提出要求的時候做一些事情,而且不需要我們提問。目前,人工智能助理還處于初級階段,用戶基本上只能在進行明確的要求之后,才能得到自己想要的歌曲或者提醒,而隨著用戶越來越習慣使用語音助手,未來這種設備的互動方式,將會從現在的被動式變成主動式。
而用戶人們是否愿意把某些工作交給機器完成,這也是個大問題。
你覺得人工智能助理會代表你做出怎么樣的決定?而這些建議可以是當有用戶說自己冷的時候,就可以自動把恒溫器打開;或者因為自己遲到了,就幫我們重新預約一次午餐會議;而隨著越來越多的智能設備進入家庭,智能語音助手可以控制的內容會大幅增加。
這在一定程度上算是一種社會問題,即人們對智能語音助手做出的決策就行有多放心,并且是否愿意把某些工作交給機器完成,這是個大問題。我們將它想象成可以操作自己信用卡和房子鑰匙的真實助手,只是需要網絡連接而已。而這么做的缺點就是自己放棄了一定程度的控制權,同時潛在的好處就是讓自己的空閑時間更多。當然從技術上來說,這也像是一種巨大的挑戰。
反饋更準確
Tom Hebner還指出了智能語音助手主動性的另一大挑戰:我們的機器助手如何知道自己什么時候做對了,那么讓我們回到“好助手”和“聰明助手”的概念上。一個好的助手可能會在某個大型會議之前把自己所有的文件都拿出來,而不需要我們提問。但是如果它們是錯誤的文件呢?而讓家庭人工智能助理更主動的一個大問題是,目前只有有限的方法來展示我們獲得的信息是否正確。
“如果我每天走進家門都聽的是同一首歌,然后有一天我走進家門,它就開始播放,他們怎么知道自己選對了呢?”Hebner說。“如果我不停止播放,這是否意味著它的選擇是正確的?如果我說停止,是不是意味著它做錯了?同時不應該再做了?這種反饋機制是目前我們沒有得到更積極主動的系統原因之一。”
對于工程師來說,這是一個具有挑戰性的問題。任何曾經有實習經歷的人都知道,領導指派給我們的任務,都要給予反饋意見,有時候自己做一項工作比委派給別人一項工作更容易。人工智能助手能讓你的生活更順暢;,不是每天給完成幾十個小調查來確認它是否做對了工作。而這需要以一種不會損害這些設備的用戶友好性的方式來解決,并且在系統了解您的偏好之前不需要進行大量的預先培訓。
那么答案究竟什么?我也不確定。但是,正如前蘋果首席執行官史蒂夫喬布斯(Steve Jobs)曾經說過的,解決問題并不是消費者的任務,而是廠商的工作。
新的交互方法
在《2001太空漫游》的一個場景中,殺人如麻的哈爾9000(HAL 9000)給人留下了深刻的印象,而令人不安的是,目前它仍然是歷史上最著名的虛構人工智能助手。它揭示出來人工智能不需要用麥克風就能判斷別人對它說了什么。當兩名機組人員試圖選擇一個確定哈爾聽不見的地方說話時,哈爾表示自己仍然能聽懂他們說的話,而這是通過閱讀唇語實現的目標。
雖然上面描述的是電影中的恐怖橋段,但未來的人工智能技術的確可以有更多的互動方式。
語音助手應該不僅限于語音交互的方式,否則這種想法就會減少了自己與人工智能有效互動的可能方式。隨著面部識別和情緒跟蹤技術的興起和發展,越來越多的生物識別技術會不斷收集用戶的信息,甚至有可能出現讀心術這樣的技術,而人工智能助手可以使用大量不同的信號來得出正確的結論。
相信在10年后,我們看到今天只能用語音命令來控制這些人工智能助手的時候,就像現在看上世紀80年代初的個人電腦。相信總有一天,人工智能和語音助手的交互方式,會變得越來越夢幻。








