未來服務線下企業的數據中臺一定是「AI 驅動的數據中臺」,這個中臺的能力要包括「計算平臺 + 算法模型 + 智能硬件」
2009 年,阿里云開啟了中國的云時代。
十年市場教育,中國的公有云市場也已經從無到有,邁過了 300 億元大關,預計到 2021 年更是能達到 900 億元的規模。
「數據中臺」已經從一個技術詞匯,慢慢轉變成為企業界的共識:如果想要在信息商業中擁有一席之地,就必須要借助云計算和數據的力量,完成企業的數字化轉型。
只是,數據到底在轉型中扮演什么樣的角色,要如何利用好數據,數據上云后如何支持業務,企業需要哪些核心能力?這些問題,對于大多數的非技術業者而言,仍然是知其然不知其所以然。
一般而言,「數據上云」更多強調的是數據的存儲和計算,而要讓數據能夠賦能業務,則更需要「數據中臺」來進行數據處理,進而支持業務決策和優化運營。
這是「數據中臺」和「數據上云」最大的不同。
數據中臺最終要幫助企業降本增效
作為數據業務領域的先行者,阿里云總裁張建鋒,在最新的演講中,把數據智能作為數據處理的核心能力:
今天處理數據絕大部分都不是單純靠算力,算力是基礎,而主要是靠上面的智能化的算法,算法跟各行各業的業務有密切相關,所以阿里巴巴通過與各行各業合作,沉淀了一個完整的智能化平臺。我們認為在基礎設施的云化、核心技術的互聯網化以及在之上疊加大數據 + 智能化的平臺和能力,完整地組成了阿里云智能的整體能力框架。這是我們核心的能力。
這里面傳達出了幾個核心信息:
1. 云計算為數據智能提供了基礎算力;
2. 行業(經驗轉化而來的)算法是智能處理數據的主要工具;
3. 數據 + 智能的平臺和能力,前提是基礎設施的云化和核心技術的互聯網化;
這是阿里云所認為的數據處理的能力框架,而在目前的市場上,我們通常把這種能力框架稱為「數據中臺」。
輿論往往會更強調技術的作用,強調技術對業務的推動作用,但事實上,在商業領域,更多的時候,技術發展都是跟著業務走,技術的發展常常來自于業務需求和業務場景的倒逼。
例如,隨著越來越多的企業把業務流程上云,日益增長的數據存儲和仍然稀缺的數據應用就成為了企業的主要矛盾之一,而且,這種矛盾不是一天就能夠解決,需要從業務、技術、組織幾個不同的領域一起來探尋數據的解決方案。
簡單來說,「數據中臺」就是這一系列解決方案的基礎設施。
數據中臺不是一套軟件系統,也不是一個標準化產品,站在企業的角度上,數據中臺更多地指向企業的業務目標,也即幫助企業沉淀業務能力,提升業務效率,最終完成數字化轉型。直白點說,中臺只講技術,不講業務,都是大忽悠。
這么多年來,互聯網的發展都建立在更低成本、更高效率的連接之上,線下也一定會復制線上的發展邏輯,用更多連接帶來更多的數據。
比如,通過攝像頭,我們就可以低成本建立顧客的 Face ID 檔案,從而豐富人和店鋪的關系數據,店鋪進而可以根據數據分析結果,給顧客提供更有針對性的服務項目。
更多連接,更低成本,更高效率——所有跟流通相關的線下生意,數據中臺的意義就在于降本增效,別無其他。
數據中臺發展經歷了四個階段
在數據史上,2015 年是一個重要的關口:2015 年全年產生的數據量等于歷史上所有人類產生數據的總和,這是數據從乘數型增長全面轉向了指數型增長的方向標,海量數據處理成為全人類的挑戰。
同一時間,阿里巴巴向外發布了 DT 時代的提法,用 Data Technology(DT,數據技術)替代了 Information Technology(IT,信息科技),強調數據技術將成為未來商業的驅動力。
一個標志性的事件是:阿里巴巴用幾百人的運營團隊支撐了幾萬億的 GMV,其中 60%-70% 來源于數據支持的機器決策,機器智能賦能業務,用更低的成本,更高的效率去服務顧客,提供千人干面的個性化體驗。
未來學家認為,機器智能最終會超越人的智慧,而這兩者的臨界點就被稱為「奇點」。從這點來說,我們可以認為,阿里巴巴已經跨越了奇點,真正成為一家數據公司。
下面我們從數據的角度來梳理下這個過程。
阿里巴巴的數據處理經歷了四個階段,分別是:
一、數據庫階段,主要是 OLTP(聯機事務處理)的需求;
二、數據倉庫階段,OLAP(聯機分析處理)成為主要需求;
三、數據平臺階段,主要解決 BI 和報表需求的技術問題;
四、數據中臺階段,通過系統來對接 OLTP(事務處理)和 OLAP(報表分析)的需求,強調數據業務化的能力。
?
?
數據中臺演進的四個階段
第一個階段是數據庫階段。
淘寶還只是一個簡單的網站,淘寶的整個結構就是前端的一些頁面,加上后端的 DB(DataBase,數據庫),只是個簡單的 OLTP 系統,主要就是交易的事務處理。
這個階段,互聯網黃頁才剛剛出現,數據來源大部分還是傳統商業的 ERP/CRM 的結構化數據,數據量并不大,也就是 GB 的級別。簡單的 DB 就能滿足需求。
這里要說明的是,OLTP 的交易場景和 OLAP 的分析場景區別在于,前者強調高并發、單條數據簡單提取和展示(增刪改查),后者對并發的要求不高,但是需要打通不同的數據庫,比如 ERP、CRM、行為數據等等,并且能夠進行批量的數據處理,也就是通常說的低并發,大批量(批處理)、面向分析(query+ 計算,用于制作報表)。
隨著淘寶用戶超過 100 萬,分析需求的比重就越來越大。淘寶需要知道它的交易來自于哪些地區,來自于哪些人,誰在買淘寶的東西等等,于是,就進入了數據處理的第二個階段。
第二個階段是數據倉庫階段。
正如前文所述,OLTP 和 OLAP 對數據存儲和計算的需求非常不一樣,前者處理的是結構化的交易數據,而 OLAP 對應的是互聯網數據,而互聯網里面數據量最大的是網頁日志,90% 以上的數據都是點擊(log)什么的非結構化的數據,而且數據量已經達到了 TB 的級別。
針對分析需求,就誕生了數據倉庫(DW,DataWarehouse),我 2004 年加入阿里,用 Oracle RAC 搭建了阿里巴巴第一個 DW,解決大量數據的存儲和計算需求,也就是去把非結構化的數據轉化成結構化數據,存儲下來。
這個階段,DW 支持的主要就是 BI 和報表需求。
順帶提一下,數據庫(DB)這時也在從傳統 DB 轉向分布式 DB。主要原因是以前交易穩定,并發可控,傳統 DB 能滿足需求,但是后來隨著交易量的增長,并發越來越不可控,對分布式 DB 的需求也就出來了。
隨著數據量越來越大,從 TB 進入了 PB 級別,原來的技術架構越來越不能支持海量數據處理,這時候就進入了第三個階段。
第三個階段是數據平臺階段,這個階段解決的還是 BI 和報表需求,但是主要是在解決底層的技術問題,也就是數據庫架構設計的問題。
這在數據庫技術領域被概括為「Shared Everything、Shared Nothing、或 Shared Disk」,說的就是數據庫架構設計本身的不同技術思路之爭。
Shared Everything 一般是針對單個主機,完全透明共享 CPU/MEMORY/IO,并行處理能力是最差的,典型的代表 SQLServer。
Shared Disk 的代表是 Oracle RAC,用戶訪問 RAC 就像訪問一個數據庫,但是這背后是一個集群,RAC 來保證這個集群的數據一致性。
問題在于,Oracle RAC 是基于 IOE 架構的,所有數據用同一個 EMC 存儲。在海量數據處理上,IOE 架構有天然的限制,不適合未來的發展。阿里巴巴的第一個數據倉庫就是建立在 Oracle RAC 上,由于數據量增長太快,所以很快就到達 20 個節點,當時是全亞洲最大的 Oracle RAC 集群,但阿里巴巴早年算過一筆賬,如果仍然沿用 IOE 架構,那么幾年后,阿里的預計營收還遠遠趕不上服務器的支出費用,就是說,如果不去 IOE,阿里會破產。
Shared Nothing 的代表就是 Hadoop。Hadoop 的各個處理單元都有自己私有的存儲單元和處理單元,各處理單元之間通過協議通信,并行處理和擴展能力更好。中間有一個分布式調度系統,會把表從物理存儲上水平分割,分配給多臺服務器。
Hadoop 的好處是要增加數據處理的能力和容量,只需要增加服務器就好,成本不高,在海量數據處理和大規模并行處理上有很大優勢。
綜上,用一個關鍵詞來概括第三階段就是「去 IOE」,建立 Shared Nothing 的海量數據處理平臺來解決數據存儲成本增長過快的問題。在阿里巴巴,前期是 Hadoop,后期轉向自研的 ODPS。
第四階段是數據中臺階段。
這個階段的特征是數據量的指數級增長,從 PB 邁向了 EB 級別,未來會到什么量級,我也說不清楚。
主要是因為,2015 年之后,IOT(物聯網)發展起來,帶動了視圖聲(視頻、圖像、聲音)數據的增長,未來 90% 的數據可能都來自于視圖聲的非結構化數據,這些數據需要視覺計算技術、圖像解析的引擎 + 視頻解析的引擎 + 音頻解析的引擎來轉換成結構化數據。5G 技術的發展,可能會進一步放大視圖聲數據的重要性。
線下要想和線上一樣,通過數據來改善業務,就要和線上一樣能做到行為可監測,數據可收集,這是前提。線下最大量的就是視圖聲數據,而這些數據靠人來手工收集,肯定是不靠譜的,依靠 IOT 技術和算法的進步,最終會通過智能端來自動化獲取數據。
要使用這些數據,光有視覺算法和智能端也不行,要有云來存儲和處理這些數據,以及打通其他領域的數據。
另一方面,從業務來看,數據也好,數據分析也好,最終都是要為業務服務的。也就是說,要在系統層面能把 OLAP 和 OLTP 去做對接,這個對接不能靠人來完成,要靠智能算法。
目前的數據中臺,最底下的數據平臺還是偏技術的,是中臺技術方案的其中一個組件,主要解決數據存儲和計算的問題;在上面就是一層數據服務層,數據服務層通過服務化 API 能夠把數據平臺和前臺的業務層對接;數據中臺里面就沒有人的事情,直接系統去做對接,通過智能算法,能把前臺的分析需求和交易需求去做對接,最終賦能業務。
綜合上述兩個方面,我認為未來要做好數據中臺,只做云或者只做端都不靠譜,需要把兩者合起來做。智能端負責數據的收集,云負責數據的存儲、計算、賦能。端能夠豐富云,云能夠賦能端。
未來的數據中臺,一定是「AI 驅動的數據中臺」,這個中臺包括「計算平臺 + 算法模型 + 智能硬件」,不僅要在端上具備視覺數據的收集和分析能力,而且還要能通過 Face ID,幫助企業去打通業務數據,最終建立線上線下觸達和服務消費者的能力。
真正做到「一切業務數據化,一切數據業務化」。
數據中臺需要具備三大能力
那么,數據中臺是怎么來賦能業務使用數據的呢?這里舉一個 TCIF 的例子。
現在大家可能都認識到了統一消費者數據的必要性,但是在幾年前,哪怕是在阿里巴巴,消費者的信息也分散在各個業務中,碎片化、散點化,而業務當時需要把這些分散的人的數據集中起來,進行人群畫像。道理很明白,人群畫像越清晰,服務就會越精準。
怎么統一消費者數據?
首先,定義埋點規范,同一個人就用同一個標識,ID 打通,也就是所謂的 One ID;
其次,還會碰上一家人使用一個登錄帳號的問題,那么就需要建立同人的數據模型,通過一些方式,比如,IP 網段是不是一樣,來分辨出具體的那個人,建立 AID(Alibaba ID);
再次,每個人還有各種網絡行為,要如何把這些行為結構化,裝到各種框架里面?這個特別難,我們當時主要是跟人類學家合作,一起把行為的分類樹做出來。這個分類樹非常細,甚至能夠把一個人的發質都結構化了。
最后,就需要通過算法模型,把所有的標簽都貼回到人上面,當時 TCIF 用上述方式生產出了 3000 多個消費者標簽。
這些標簽被阿里巴巴的其他產品所使用,比如阿里媽媽的達摩盤就把這些標簽提供給廣告主,讓廣告主能夠通過標簽去建立人群畫像,進行人群細分,以及建立投放用的人群包。
從 TCIF 的例子來看,數據中臺未來一定需要具備三種能力。
第一是數據模型能力。
在業務層面,業務抽象能夠解決 80% 的共性問題,開放的系統架構來解決 20% 的個性問題,但同時又要把平臺上的業務邏輯分開,因為不同的業務邏輯之間可能有沖突。
這在數據中臺就表現為數據的中心化,也就是數據的高內聚、低耦合,需要對共性問題抽象出業務的規則,建立數據模型,一個好的內聚模塊能夠解決一個事情,同時又要降低模塊和模塊之間的耦合度,讓模塊具有良好的可讀性和可維護性。
這里的前提是要有真正懂業務能沉淀經驗的人,以及要在企業層面開展數據治理,讓數據能夠準確、適度共享、安全地被使用。
第二是 AI 算法模型能力。
要實現數據業務化,前提是做到數據的資產化。要能夠從數據原油里面,去提煉出可以使用的汽油。
比如說數據的標簽化,背后就有投入產出比的考量:通過標簽,廣告主可以非常方便快捷地去建立自己的人群包,實現精準營銷,同時投放的 ROI 也是可見的、透明的,廣告主可以自己去評估數據資產的使用情況。
第三是行業的應用能力,也就是我們通常說的數據業務化能力。
和數據中心化類似,數據業務化也需要很強的行業經驗來指導,建立合適的業務場景,在場景里面去使用數據,從而體現數據的價值,來大大擴展數據在行業中的應用能力。
在奇點云和某酒類客戶的合作過程中,我們最大的收獲不是幫助客戶完成了數據中臺的搭建,而是通過理解客戶的業務,把其經驗沉淀到數據中臺,從而賦能客戶更多的端上的創新業務,帶來了生意的增量。
最后總結一下,未來的數據中臺最重要的不單是數據的存儲和計算能力,而是要能從「存、通、用」的角度和業務結合,幫助企業從數據中獲取價值,沉淀數據資產,最終用數據賺錢。
作者介紹
口述者:行在(張金銀),奇點云 CEO,阿里巴巴第一個數據倉庫的創建者,阿里巴巴第一個消費者數據平臺 TCIF 的創建者,阿里云數據智能平臺數加的創始人,2004 年以數據技術專家身份加入阿里巴巴以來,12 年來一直投身于大數據事業。2016 年離開阿里巴巴,創立奇點云,旨在用「AI 驅動的數據中臺」賦能線下,讓商業更智能。








