
本文作者:肖凱,駐云科技COO,聯合創始人,前IBM資深架構師,前EMC資深架構師。負責駐云云計算架構和運維團隊,面向企業提供云計算咨詢與運維服務,擁有超過10年的系統開發、架構設計、企業級技術咨詢的經驗。
以下正文
最近很多人跟我聊大數據,有客戶,有朋友,還有應聘者。聊得越多卻越怕談大數據,為什么呢?比如有人跟我說他在做基因數據的大數據分析,我聽到眼睛一亮,因為十幾年前讀書的時候做過一些基因序列分析方面的事情,知道這個很有價值但由于當時分析手段很落后也只得作罷,于是我趕緊問,你怎么分析?他說我把幾千個人的基因數據片段拆分為多個維度,根據病例基因樣本,放到Excel里XXXXX......
我頓時一口鮮血,#@%^#&^@#*......
這個例子雖然有些夸張,不過確實也能反應現在跟別人聊大數據時的困惑,做報表的說我做大數據分析,做工具的也說我做大數據分析。

那到底什么是大數據分析呢?
大數據分析應該至少具備三個特征:1. 客觀 2. 實時 3. 多維
什么是客觀? 比如我們要分析一群人當中哪些可能有抑郁或自殺傾向, 使用調查問卷是過去常見的手段,但調查問卷看起來是客觀的,實際上卻頗有偏頗。因為人在做問卷的時候本身就會根據問題本身進行一些主觀傾向性的回答,并不一定是客觀的。那么什么是客觀的呢?這個人的日常行為、作息時間、朋友關系等,這些都是客觀的數據。只有通過客觀數據得到的結果才是準確的。如果數據不是客觀數據,分析手段就算再先進,結果也不會太準確。
什么是實時?數據是有價值的,但是數據在不同時間段價值差別就非常大了,過了黃金時間段,數據就成垃圾。比如警察叔叔在抓捕逃犯時的交通監控數據,會隨著時間的推移價值越來越低。再比如我們春晚時參與搶紅包互動的用戶訪問情況和分布數據,過了那幾個小時,業務上所期望帶來的廣告價值就成為0了。
什么是多維?事物有多個維度,比如我們要分析一個人的征信情況來判斷借款給這個人的風險是多少?只是收集他的收入情況、公司、學歷、歷史銀行還款記錄等基本信息是不夠的。實際上一個人除了這些數據維度,還有更廣闊的維度,比如他的消費習慣、購物情況、朋友數量和分布、所在公司的狀況等等。所以數據一定要有足夠多的維度分析才更精確,更有價值。

說完這些可能有同學就會問了,你說的這幾點在人類歷史中,計算機出現以來都一直存在啊,為什么10年前沒有大數據分析,最近幾年大數據分析才熱門起來呢?
沒錯,其實數據一直都在人類社會活動中不停地產生,大數據一直都存在,那么為什么今天我們才發現大數據的價值呢?有人問數據到底有沒有價值?答案一定是有的,但是挖掘數據價值的投入產出比就不好說了。因為可能分析數據要100元,但是產生的結果價值也許只有50元。
這就是為什么以前人們上網、購物、玩游戲,產生的數據也很多,但是大部分的數據都沒有產生價值,因為以前開采數據價值的代價太高了。進行數據分析的前提一定是要有低廉的存儲成本和大規模的計算資源,以及高效的技術手段。這樣才能通過20元的投入來獲得50元的數據價值。
傳統的IT手段解決不了這些問題,所以以前有大數據,但是并沒有大數據分析,也很少有人從海量數據中得到太多的價值。其實數據的價值就像頁巖油,一直都在那里,也是有價值的,但是當技術手段不成熟時,頁巖油就是沒有價值。直到“ 水平井與壓裂技術 ”的出現和完善,使得開采頁巖氣的效率和成本大幅下降,造就了目前的頁巖氣能源革命,也引起了石油價格大幅下跌。云計算就相當于是頁巖氣革命中的“水平井與壓裂技術”。因為云計算技術的出現幫助我們解決了海量存儲和大規模計算的問題,這才有了大數據分析。
在傳統IT架構下,很多的日志、用戶行為記錄、交易過程信息,要么是根本沒有記錄,要么就是因為無法有效產生價值而把這些數據都丟棄掉了。往往一個企業的交易相關數據量也就是幾百GB到幾個TB而已(視頻和圖片除外)
所以一個企業連數據都沒有多少,怎么做大數據分析?

那么要想通過大數據分析來產生業務價值,第一步要做的是什么呢?其實不是去想怎么分析,而是先規劃好數據的收集,只有先存儲了足夠多的數據,數據的價值才能夠從量變到質變,從而為業務帶來價值。就比如現在很多互聯網公司收集用戶行為以及交易狀態數據,然后通過實時或者準實時的分析,再迅速調整業務策略來提高商品銷量。
所以如果希望通過大數據的分析手段來獲取數據價值,首先要解決海量數據的存儲問題以及必須具備大規模計算的能力,有了這兩個武器,數據的價值才能夠高效的發掘。
好啦~本文到這里就結束了,同時,如果喜歡我們的話就趕緊訂閱我們吧~~~每天定時推送新鮮干貨~~~也可以關注我們的微信公眾號:架構云專家頻道 每天同步更新喲~~~
您也可以關注我們的官方微信公眾號(ID:ctoutiao),給您更多好看的內容。