作者:Bill Schmarzo,譯者:核子可樂 來源:InfoQ
棒球運動當中有著“投手之痛”這樣一個專用表達,指的是投手即使身有傷病也必須進行投球——無論是手臂酸痛、關節僵硬、水泡還是肌肉拉傷,都無法阻止比賽的正常進行。而這些投手擁有著極其堅毅的意志,即使身體上存在種種問題,他們有仍然能夠投出速度極快、令擊球手防不勝防的好球。
但在其他更為復雜的場景下,人類同樣有可能被迫完成某項任務,而其中的難處使得參與者在有意或者無意之間利用不良習慣應對類似的“痛苦”。如此一來,一個問題就變成了多個問題,直至整個系統徹底崩潰——輸掉比賽、錯過賽季。事實上,數據湖經歷的也基本就是這樣一個過程!
“2016 年,Gartner 公司估計有 60% 的大數據項目遭遇失敗。”而在一年之后,Gartner 分析師 Nick Heudecker 表示原本 60% 這一比例“估計得太過保守”,并進一步將失敗率定為近 85%。時至今日,在他看來情況也仍然沒有好轉。
不少早期的數據湖項目始于 CIO 決定引入 Hadoop,將大量數據加載至 Hadoop 環境當中,聘用一些數據科學家,然后坐等奇跡的發生……坐等奇跡的發生……奇跡的發生……然后就沒有然后了。
現在看來,這些數據湖正在“走向失敗”——也導致整個數據湖領域步步趨向“二次手術”,其中的原因有以下兩點:
當原始數據湖技術無法繼續滿足目標時,IT 組織也不可能繼續前進。
在啟動數據湖項目時,很多組織往往缺乏深厚的業務背景知識與可量化的業務價值。
數據湖經濟學
經濟學的核心,涉及價值的產生、消費與轉移,其同時也是商業領域最強大的力量所在。讓我們先來看看一個最基本的經濟概念,并考慮這個新概念如何為數據湖的“二次手術”提供操作框架。
在第一堂經濟學課程中,我們先來介紹沉沒成本這個概念。沉沒成本是指已經發生且無法收回的成本。我爸爸對此有個通俗的解釋,,就是“拿錢打水漂”(我爸爸曾經建議我不要再 1968 年的〈怒 III〉街機游戲上投幣)。為了做出明智的商業決策,組織應該只考慮即將做出的決策會帶來的成本變化,而直接忽略沉沒成本。
在技術世界當中,這意味著即使大家購買了特定技術并以此為基礎完成了培訓,在接下來的決策時同樣應該忽略與此前購置、實施與培訓技術相關的成本。
在數據湖(以及數據科學)的世界中,技術總是來了又去。因此,越早將這些技術投資視為沉沒成本,大家做出的商業決策就越高效。在關于現代數字化企業的《一次性技術時代已經來臨( Disposable Technology: A Concept Whose Time Has Come )》一文中,我們可以提取出兩條最核心的教訓:
教訓一:努力保持組織的一致性,從而發現、捕捉并運營企業數據當中所隱含的客戶、產品及運營價值的新來源。
教訓二:不要采用任何有礙教訓一的嚴苛技術架構。
通過積極的開源架構策略,現代化數字企業逐漸意識到自己的目標不在于建立技術架構,而是通過業務實現數據的貨幣化。
解決方案:在繼續制定新的數據湖決策的同時,不要將大量金錢與時間耗費在構建原始(或者說失敗的)數據湖身上。
但是,不了解沉沒成本并不是最大的經濟學失誤,接下來還有更嚴重的?,F在,我要向大家介紹我個人提出的另一個經濟學概念——吸血鬼困境理論(我正在積極為此爭取諾貝爾經濟學獎~)。這一理論,是指組織很難徹底“放棄”過時的技術,進而導致“吸血鬼困境”。換言之,IT 部門無法做出要不要清退(或者說「殺死」)無用技術的決定,其中當然也包括大家最喜愛的數據倉庫設施啦。在這種情況下,此類技術將繼續存在,并慢慢從更重要的技術方案手中奪取財務與人力資源。
事實上,計算機協會已經為這類無法鼓起勇氣消除不相關、過時技術的組織建立起業務模型,并將其認定為一類典型的代表性問題。
解決方案:清退就完事了……清除數據湖中不相關的技術以及多余數據,借以釋放人力與財力,從而專注于支持那些對組織業務戰略更具價值的技術與數據源。
創造新的經濟價值來源
但是,導致大多數數據湖“失敗”的根本問題,在于組織無法利用其中的數據引導并推動數據貨幣化工作。也就是說,人們無法借此發現新的客戶、產品與運營價值來源(具體請參見圖一)。
?
?
圖一:CIO 面臨的各項主要挑戰
如果不清楚自己希望從數據湖身上獲取怎樣的商業價值、又有哪些元素應從數據湖中被清除出去(例如目標用例是什么、應根據哪些指標來衡量工作進展與成功程度、該用例需要哪些決策作為支撐等等),組織將無法判斷哪些數據源更為關鍵、而哪些數據源并不重要。因此,IT 組織會默認將大量不必要的數據加載至數據湖當中,從而產生大量未經整理且無法供業務體系實際應用的數據。
但好消息是,一旦正確指定了高優先級數據源,IT 組織便可以利用 DataOps 將數據沼澤轉化為數據金礦。DataOps 正是其中提高數據貨幣化工作效率與效果的關鍵所在。它使我們的數據科學團隊能夠探索各類變量與指標,借此更好地預測性能,同時不致因數據聚合、清潔、集成、協調、準備、管理以及發布等流程的存在而不堪重負。關于 DataOps 以及數據科學在推動數據貨幣化方面的共生作用,請參閱博文《DataOps 是什么,它對數據貨幣化價值又為何至關重要( What is DataOps and Why It’s Critical to the Data Monetization Valu…)》一文(參見圖二)。
?
?
圖二:數據貨幣化價值鏈
Hitachi Vantara 數據湖“二次手術”中的經驗教訓
沒錯,Hitachi Vantara 在這場數據湖簡史當中也是親歷者之一——他們采購了 Hadoop 方案,將大量數據加載到環境當中,聘用了不少數據科學家,然后等待著奇跡的發生……但是,Hitachi Vantara 的故事與其他失敗案例之間的唯一區別,就是公司擁有一位富有遠見的 CIO——Renee Lahti。在一位好友的指點之下,Renee 意識到她原本的數據湖方法注定會失敗。這時候,就需要進行“二次手術”。
Renee 先后通過重新設置數據湖技術平臺,以及確定有助于調整工作執行的業務合作伙伴,開始了這場針對數據湖的“二次手術”(內部代號為「香檳項目」,看到這是要提前慶祝勝利啊)。在這場以實現商業價值為目標的努力中,這位重要的合作伙伴正是公司首席營銷官 Jonathan Martin。最后,數據科學數字化價值支持(DVE)流程也由此建立起來。
我給大家透露一點這場“香檳行動”中的故事:
組織 DVE 愿望研討會,旨在發現、驗證、評估并確定各個用例的優先級,同時在市場營銷、財務、運營、銷售以及 IT 事務之間建立一致性,并利用數據湖為其中的數據科學活動提供基礎。
選擇優先級最高的用例(新產品引入定位),并通過我們的 DVE 價值證明方法對其進行研究(考量一系列數據工程與數據科學工作)。
利用新產品引入代理,開發、測試并驗證三套分析模型(分別對應購買意向、客戶忠誠度推薦引擎以及生存模型)。
將這些評分納入銷售、產品與支持系統當中,從而確保 Hitachi Vantara 能夠將支持重點放在那些可以從新產品中獲取最佳收益的客戶群體,并思考其原因(基于客戶使用模型與服務歷史記錄)。
但根據我的個人觀察,僅使用 3 個數據源,我們就能讓實現高達 90% 的模型預測準確性。是的,只需要 3 個即可!這項研究的重要意義在于,組織并不需要將數十甚至數百套數據集加載至數據湖中,以進一步推動數據貨幣化進程。相反,只要組織對其希望解決的問題擁有深刻的了解,那么即使考慮到初步使用數據方面的效率與效果限制,單純面向三套最重要的數據集進行數據清潔、完整性評估與填充操作,已經足以帶來令人滿意的產出。
現在,我們能不能進一步改善設計,從而繼續利用這三個數據源提高模型準確性?當然可以,而這正是 IT 部門需要重點關注的主要數據改進方向。
但這又帶來了另一個有趣的問題:我們能否通過合并更多數據源的方式,提高模型的準確性?有可能,但在對分析模型進行改進的同時,我們也需要考慮引入新數據源所帶來的成本與邊際價值權衡問題。換句話說,我們是應該繼續投入資源以改善現有模型與數據支持能力,還是將這部分資源分配給新的用例(我們至少還有 10 個用于市場營銷的其它模型)?這無疑是一項重要的商業決策。
總結
數據湖可以也應該成為一套“創造協作價值的平臺”,負責幫助組織確定并區分那些可引導及推動的全新客戶、產品與運營價值來源,并對相關用例進行優先級排序。但是,千萬不要長期使用過時的技術平臺與貨幣方法來緩解所謂“投手之痛”。此外,接受沉沒成本以及“吸血鬼困境”等相關經濟學概念,勇于放手前進,并將“二次手術”視為數據湖運營中的新常態。
只要能做到這幾點,完成過渡并痛飲慶功酒將只是時間問題!
本文要點總結:
正如職業運動員在面臨“投手之痛”時,往往會利用不良習慣加以緩解,并最終嚴重影響效果與職業生涯一樣;在創造不良習慣以緩解系統架構層面中的內在問題時,IT 組織也會遭遇相同的綜合癥甚至是后遺癥。
在數據湖的世界中,我們發現很多 IT 組織都試圖“熬過結構質量與定位質量雙重低下的艱難發展階段”。但結果就是,這種幾乎沒救了的數據湖在“二次手術”中很可能徹底毀掉 CIO 的職業道路。
數據湖“二次手術”解決方案的起點,應該是了解一些基本的經濟學概念——包括沉沒成本與“吸血鬼困境”。
實現數據湖項目成功的關鍵是什么?投入時間解決潛在的技術問題(不要以消極的態度忍受「投手之痛」),并在組織內部就數據湖能夠在哪里以怎樣的方式引導并獲取新的客戶、產品與運營價值來源達成共識。
原文鏈接:
The Data Lake Chronicles: Pitching Through Pain, Vampire Indecisions and Second Surgeries








