星云Clustar副總裁許振
6月9日,首屆 CTIS 2021消費者科技及創新展覽會在上海新國際博覽中心正式開幕。在鈦媒體聯合CTiS共同打造的“AI·創新數字生活主題論壇”上,星云Clustar副總裁許振進行了以“隱私計算構建AI基礎設施,釋放數據價值”為主題的分享。
機器學習是人工智能的一個細分領域,它是在海量數據的基礎上去挖掘數據的價值,如果我們抽象來看,它總結下來就是算法、算力和大數據共同工作的產物,它最革命性的東西就是能夠用算法和機器去代替人,去總結數據中的洞察。
“可是當我們面對產業時,我們發現數據并不大,大部分都是小數據,孤島,煙囪。我們在自己所擁有的這些數據上能夠做的挖掘,基本上已經達到了極致,我們再用更多的算法、更強大的算力,也只能去提升一兩個百分點,已經很難引起質變了?!痹S振說,“所以我們在許多場景中不得不需要引入外部新的數據,以對消費者進行畫像,預測和洞察消費者行為”。
由此就產生了一個矛盾,企業要提高自己人工智能的水平,必須引入外部數據,但引入外部數據又會受到數據保護法的限制,這一矛盾該如何解決成為了一個重要的問題。
而隱私計算就是回答這一問題的答案。許振介紹說,通過隱私計算技術,兩個機構進行聯合建模為需求方提供服務,但數據都依舊保持在本地,不用出數據庫。這就是隱私計算所解決的問題。
有機構曾預測,到2025年,有50%的企業都是隱私計算的用戶,不僅限于金融行業,還包括醫療、生物、政務、零售等行業,都會是隱私計算的潛在客戶。
“隱私計算這個賽道是剛剛起步,應用方興未艾?!痹S振說,“星云Clustar會堅持在隱私計算領域貢獻自己的科技力量?!?/p>
感謝主辦方的邀請,我是來自星云Clustar的許振。今天我所講的話題可能距離消費者端有點遠,它更加貼近產業端。
我今天所演講的話題,分享的內容主要是有兩個關鍵詞:一個是隱私計算,另一個則是基礎設施。
機器學習是人工智能的一個細分領域,它是在海量數據的基礎上去挖掘數據的價值,如果我們抽象來看,它總結下來就是算法、算力和大數據共同工作的產物,它最革命性的東西就是能夠用算法和機器去代替人,去總結數據中的洞察,這是它最大的突破。
最近幾年為什么機器學習這么火,也是因為五六年之前,谷歌的AlphaGo,還有李飛飛的貓,這兩個事件推進了深度學習,還有其他比較高效的算法,這些算法使得我們可以將數據的挖掘交由機器,這才進一步導致了后面行業的爆發。包括自動語音識別,視覺識別技術,大部分也都是用機器學習和深度學習去實現。抽象來說,就是讓機器在算法的驅動下,在數據中去尋找規律。
可是當我們面對產業時,我們發現數據并不大,大部分都是小數據,孤島,煙囪。我們在自己所擁有的這些數據上能夠做的挖掘,基本上已經達到了極致,我們再用更多的算法、更強大的算力,也只能去提升一兩個百分點,已經很難引起質變了。所以我們在許多場景中不得不需要引入外部新的數據,以對消費者進行畫像,預測和洞察消費者行為。
舉個例子,在金融行業,我們要對消費者信用等級進行評估,這個評估僅僅依靠金融行業內部、銀行內部的數據是不夠的,因為銀行內部可能只有消費者自己提交的家庭住址、學歷、收入水平,并沒有他的消費習慣、互聯網記錄。如果加入這些數據,銀行對去申請貸款的消費者的洞察會更加全面,銀行風控能力會更強。
但這涉及到了隱私問題,用消費者的數據去建立機器學習模型的過程中,是不是會侵犯隱私?
在歐洲和美國,對于隱私的保護是非常嚴厲的,比如CCPA和GDPR,他們很嚴苛,收集個人隱私數據的公司不能將這些數據共享出去,一旦發現隱私泄露,罰款額度是非常高的,大約占這個公司整體營業收入的2%,谷歌、Facebook都被罰過。
而在中國,個人隱私保護法也馬上就要上線了,去年《民法典》也已經明確規定了:隱私數據,特別是消費者的隱私數據,是不能外泄的。
由此就產生了一個矛盾,企業要提高自己人工智能的水平,必須引入外部數據,但引入外部數據又會受到數據保護法的限制,這一矛盾該如何解決成為了一個重要的問題。
其實,隱私計算就是能讓企業在引入外部數據時,保護消費者隱私的一種方法。
以前做法很簡單。比如互聯網機構和銀行做聯合建模,利用消費行為評估信用等級,互聯網公司就把數據拷到數據中心,這會導致數據的泄露,這是一種踏過紅線的、打擦邊球的做法。
第二種是數據脫敏,把關鍵字符,比如身份證號、手機號、家庭住址等等,做一些分析,然后再去做機器學習的模型,去探尋規律,這種方法的最后結果是不保真的。
而隱私計算是一種數據不用出本地的解決方案。比如兩個機構可以通過聯合建模的方法,在數據保持在本地的前提下,建出一個模型來為需求方做服務。這就衍生了一個非常好的商業優勢,就是它保護了數據的所有權,使數據的所有權和使用權相分離。
以前如果要做一個數據的模型,我們需要把數據拷出去,而隨著數據拷貝,這個數據的所有權也就喪失了。隱私計算是數據不出域的,也就是說你可以使用數據,但見不到數據,所以它保證了數據的所有權和使用權的隔離,這使得我們可以去激發整個市場數據。
我們國家一直強調要讓數據成為生產要素。既然是生產要素,就是商品,就要定價流通,所以隱私計算的衍生品就是讓數據可以變成商品,成為可流通的、有價值、可定價的東西。所以這是隱私計算的副產品,也是它未來可能對這個行業帶來的最大的創新源泉。
說到隱私計算,內部還有細分,有三大門派。“華山派”就是指的比較早的可信計算、安全屋,比較流行的像英特爾和阿里螞蟻的TEE,這種技術可以保證安全可信的計算環境;第二個叫“少林派”,指的是多方安全計算,它的做法就是用秘密分享,不經意傳輸,混淆電路等算法,保證你的數據既能使用又安全;第三個“武當派”,就是聯邦學習,聯邦學習是最近比較火的話題,就是在多個分布式的節點,使數據能夠進行交互,最后不僅能訓練出一個模型來,還能保證數據的隱私和安全性。從三個不同技術的對比可以看出來,聯邦學習是最能保證數據的隱私,又能保證效果的一個方法。
現在的隱私計算在金融行業還是非?;鸨?。第一,金融行業對外部數據的依賴程度很大,因為金融行業本身就比較閉塞,能夠收集到的客戶數據非常少,風險控制對于銀行來講是一個非常重要的部門,它要提高風險控制能力,降低壞賬率,提高業務水平,所以隱私計算在金融行業是非常重要的。
其次,在一些其他的消費者隱私數據比較敏感的地方,比如醫療、政府等等大數據領域,甚至后邊可以擴散到小微企業、產業鏈金融、還有工業,對個人數據價值的保護,還有數據資產的界定,隱私計算都是非常好的一種解決方案。現在我們正處于一個技術的啟動期,大概在2019年的時候,各種技術已經基本成熟了,2020年有些產業開始做一些試點和試用(POC),還有一些點到點的打通。而到了2021年,這個產業就逐漸開始爆發。
舉幾個例子,隱私計算在金融的幾個細分領域應用范圍也是比較廣的,主要是反洗錢、聯合定價、聯合信貸風控,還有客戶價值的營銷篩選模型,在這些領域中隱私計算都已經有落地案例了。
隱私計算的口號就是打破數據孤島。
數據孤島分為內部孤島和外部孤島。一個大型的集團,比如像長安這種汽車集團,它下面有很多分公司,比如有保險公司、金融公司、汽車公司、車聯網公司,這些公司有各種各樣的數據,如果長安集團想做數據打通,它是不能把數據拷在一起的,如果拷在一起就違反了《數據安全法》,就出域了。
另外一個,機構和機構之間的數據打通,比如要反洗錢,上海某個銀行要和銀聯進行數據打通,銀聯的數據不能出來,銀行的數據也不能出去,這種情況下就需要機構和機構之間的數據打通。
除了金融行業,還有其他行業,比如樣本數據的共享,我們知道CV樣本是很難獲取的,因為有時候我們去檢測缺陷,缺陷并不容易出現,一旦出現,我們即便是標注好了,它的數據樣本依然是不夠的,所以如果我們大量的人都參與這個行業,去標注自己的樣本,樣本又能共享,變成一個樣本池。同時,這個樣本又只屬于我自己,你用我的樣本,但不會擁有這個樣本,這時候又生成了一個產業,對于CV數據的共享,隱私計算也能發揮非常大的作用。
這是金融行業幾個比較典型的案例,包括增強風控能力,合規,還有小微企業的貸款幾個方面。舉個小例子,現在我們都講供應鏈金融,想給小微企業貸款,很難,特別是它的信用貸,它沒有辦法證明自己的還款能力。什么能證明?發票,稅務局有它的開票記錄,有它的一切經營記錄,這些經營記錄可以作為它信貸風控的依據。但是這些數據在哪里,可能是在阿里,它可能是阿里上的小微企業,有它的交易流水記錄,也可能在稅務局,這個數據就在三個方面。用聯邦學習的技術,進行數據打通,增加小微企業畫像的完整度,銀行就可以給小微企業做一個非??陀^的信用評分,再給它一個授信額度,小微企業就得到了企業資金的滿足。
星云Clustar在這里邊做什么呢?
隱私計算是機器學習的一個分支,機器學習是人工智能的一個分支,所有的行業都在用人工智能的技術去解決它的問題,星云Clustar想做的事情就是用隱私計算去為企業提供一個全棧的解決方案,這包括從算力層到計算框架層,再到最上層的數據。隱私計算就意味著數據是要打通的,要有外部數據輸入才能完成一個完整的流程和場景,星云Clustar在這三個方面都是給客戶提供一站式的解決方案,只要有了這三個東西,客戶落地一個隱私計算或者聯邦學習的業務場景是非常快的。
星云Clustar是秉承開源的,現在聯邦學習最大的開源社區叫FATE,星云在里邊主要做算力加速,還有大規模集群式的管理,我們在持續為FATE社區進行貢獻。還有包括聯邦學習的產業委員會,星云Clustar也在里面起到了非常大的推動作用。
有一個機構曾做了一個預測,到2025年的時候,有50%的企業都是隱私計算的用戶,所以我們可以想像一下,我們在做一些業務決策的時候,要做BI,要做各種數據的匯總,CRM、ERP,那都是內部的數據,引入外部數據意味著比你自己在數據上去做各種升維降維、衍生變量,效率更高。所以除了剛才我們提到的金融行業,還有醫療、生物、政務、零售等行業,都會是隱私計算的潛在客戶。
所以隱私計算這個賽道是剛剛起步,而且應用方興未艾,星云Clustar將會堅持在隱私計算領域貢獻自己的科技力量。
我的介紹到這里,謝謝。
更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App
2022-09-14 鈦媒體 App發布了 《星巴克加碼中國市場,未來三年要新增開3000家門店|鈦快訊》的文章
2022-08-11 鈦媒體 App發布了 《白云山麾下公司虛抬藥價“把戲”,被拆穿了》的文章
2022-07-06 鈦媒體 App發布了 《為了幫00后卷王找到工作,簡歷修改師們拼了》的文章
2022-07-06 鈦媒體 App發布了 《威尼斯向游客收“進城費”,國內城市如何借鑒?》的文章
2022-03-25 鈦媒體 App發布了 《蔚來2021年財報發布:年營收361億元,整車毛利率達到20.1%》的文章