關于數據和分析,有很多炒作和宣傳。企業們不斷被勸誡說,要制定收集和分析大數據的策略,并被警告不這樣做會有什么潛在的負面后果。《華爾街日報》最近發現,那些坐擁大量客戶數據的公司,絕大多數情況下卻不知道如何使用這些數據。我們采訪了那些試圖從 PB 級數據中尋找可用洞察的公司,并找出了管理者們在數據方面常犯的四個錯誤。
- 錯誤1:不理解數據整合的重要性
第一個限制企業從大數據中獲得價值的挑戰,就是兼容性和整合。大數據的關鍵特征之一,就是數據來自于各種各樣的數據源。然而,如果這些數據不是本身就很合適,或者,不是很易于整合,那么數據源的多樣性,可能會使企業實際上難以為客戶省錢或創造價值。
比如,我們與一家公司合作項目,他們擁有很棒的客戶購買數據和忠誠度數據,另外還有一個在線瀏覽行為的數據庫,但是,他們沒辦法將這兩個數據來源對比參照,因此也無法知道是否瀏覽網站的行為可以當做銷售的預測。這家公司可以通過創建“數據湖”、擁有大量的非結構化數據,來應對這種挑戰。然而,事實上,現在企業擁有的大量數據都是非結構化的,比如以文本字符串為形式的數據,這意味著非常難以將數據用二進制數據的方式來結構化儲存。而這,就會使它非常難以被整合到各個渠道中。
- 錯誤2:沒有意識到非結構化數據的限制
使大數據難以產生價值的第二個挑戰是其非結構性。文本數據挖掘取得了專業化的進展,人們可以通過上下文和技術得到與結構化數據類似的見解,但其他形式的數據,如視頻數據,仍然不容易分析。有一個例子,盡管使用最先進的面部識別軟件,當局還是無法從眾多的視頻數據中識別出波士頓馬拉松恐怖襲擊的兩名爆炸嫌疑犯,因為軟件難以識別從各種不同角度拍攝的人臉照片。

考慮到難以從非結構化數據獲得見解,企業最成功的舉措是,初步使用它來增加現有數據分析的速度和準確性。 例如,在石油和天然氣勘探中,大數據就被用于加強地震鉆探相關的操作與數據分析。盡管他們使用的數據可能在速度(velocity)、多樣性(variety)和體積(volume)上都有所增加,但最終它仍然被用于相同的目的。一般來說,只有當公司“練習”并獲得了使用非結構化數據來增強現有問題解決方案的專業知識后,他們才有可能使用非結構化數據來激發新的假設。
- 錯誤3:以為相關性代表了因果性

在我們看來,限制企業從大數據中獲得價值的第三個挑戰,也是最重要原因,是難以在大量重復交叉的數據海洋中建立因果關系。非常大的數據集通常包含一些非常相似或幾乎相同的觀察結果,這可能導致虛假的相關性,從而誤導管理人員決策。《經濟學人》最近指出,“在一個大數據世界中,相關性幾乎是自己顯現出來的”,《MIT斯隆管理評論》的博客文章強調,盡管許多公司都能獲得大量數據,但這些數據并不是“客觀”的,因為他們很難從中提取出“真實”可行的洞察。同樣,用于分析大數據的經典機器學習算法,識別出的相關性不一定能給出有效的因果關系,因此也無法得到可行的管理洞察。換句話說,使大數據有價值的技能,是能夠從單純的觀察式相關性,轉變成,正確識別那些具有因果關系的相關性,這就可以為戰略舉措打好基礎。要做到這點,往往需要用超越大數據的眼光來看問題。
關于大數據,一個眾所周知的例子就是 Google Trends,它使用的是 Google 整合的搜索查詢記錄的數據。然而,這也是一個典型的案例,僅僅看相關性,會限制數據可用性。最初,研究人員認為這些數據可用于預測流感的傳播。然而,后來研究人員發現,由于數據是滯后的,所以使用搜索引擎數據也只比以前簡單的模型表現稍微好了一點點。

舉個更具體的例子,假設一家鞋類零售商,他向那些曾經訪問過官網的的消費者發布廣告。原始數據分析可能表明,看到這些廣告的客戶會更有可能購買鞋子。然而以前訪問過該網站的消費者,即使在查看廣告之前,也已經對這個零售商表現出了興趣,因此當然會比一般消費者更有可能購買。
那么,廣告是否有效?難說。從這里的大數據,我們看不到任何關于營銷傳播效率的因果推論。為了了解這樣的廣告是否有效,零售商需要進行一個隨機測試或實驗,讓一部分隨機消費者看不到廣告。通過比較看到廣告的消費者和未看到廣告的消費者的購買概率,零售商就可以確定是否讓消費者看到廣告會使他們更有可能購買。這種情況下,價值不是主要通過獲取數據產生的,而是通過設計、實施和解釋有意義的實驗產生的。
是實驗,而不是大型觀察數據集,幫助企業了解一個關系是簡單的相關性,還是反應了潛在因果的可靠預測因素。雖然,就算分析一千億字節客戶行為觀察數據,對管理者來說可能也很難提高盈利能力,但將看到營銷活動的客戶行為與沒有看到營銷活動的客戶行為進行比較——實驗的結果——可以幫助營銷人員確定,這個活動是否成功。
執行田野實驗、得出正確的結論,并采取適當行動并不總是很容易。但成功的公司,已經有了設計、實施、評估,并根據有意義的實地實驗結果制定決策的能力。正是這種“測試和學習”的環境、根據洞察力采取行動、以及理解結果是否被簡單概括化的能力,使得大數據具有價值。
例如,Google 報告稱,他們通常隨機抽樣可用數據的 0.1% 進行分析。事實上,最近的一篇文章表明,大數據的大小可能是有破壞性的,因為“數據越大,你就越容易獲得任何假設的支持證明”。換句話說,因為大數據通常提供重疊的洞察, 從整個數據集的 1/1000 中和從全部完整的數據中,你可以獲得類似的洞察。
- 錯誤4:低估所需的勞動技能
實驗不是公司可從大數據中獲得有價值見解的唯一方法。另一個公司可用來處理大數據的技能,就是開發建立更好的算法。這種算法的一個例子就是推薦系統。推薦系統依賴于對相關數據進行學習的算法,向客戶推薦最相關的產品。然而,它并非基于數據的大小,而是識別最能預測客戶喜好的關鍵信息。實際上,通常,決定結果質量的,不是數據的大小,而是機器學習的算法。雖然預測能力可能隨著可用數據的大小而增加,但在許多情況下,隨著數據集大小的增加,數據規模對預測效果提高的影響就慢慢變小。不過,建立更好的算法,就需要更好的數據科學家。因此,那些以為光靠大量數據就可以得到洞察力,而不雇用員工去跟蹤因果關系的公司,最終一定會大失所望。
大數據本身其實價值不大。只有當結合了管理、工程和分析技能去確定實驗或算法,并將其應用于數據,才能讓數據對企業產生價值。關于這一點,當你比較數據的價格和數據處理技能的價格時,你就懂了。相比起獲取處理數據的人才所花的成本,數據就要便宜許多,就這表明,處理技能比數據本身對企業來說更有價值。
數據 | 智能 | 商業