原標題:大數據華而不實么?大數據的本質是什么?
事實上并非如此,從歷史上來說,現代統計學的起源是南丁格爾用大量的統計數據和方法制作出了后世有名的“南丁格爾玫瑰圖”從而奠定了現代護理學的基礎,救助了許多戰場士兵的生命。從此以后許多國家(尤其是美國和法國)都開始致力于大量收集各種居民數據,這種數據的搜集稱之為“人口普查”。人口普查可以看作是現在“大數據”的原型,統計學家事實上200年前就開始做這樣的事情了。所以“大數據”并不是2010年中以后的事情,這是許多不了解統計學的人的偏見。
從學科發展的角度來說,統計科學家幾十年前也開始注重研究如何處理“大數據”的問題,比如說當我們有大量的觀測量,同時又有大量的解釋變量的時候應該如何做?所以說覺得“大數據”問題是近幾年才出現,并且缺少學術上的關注的想法也是完全錯誤的。傳統統計學者比誰都更關心“大數據”所導致的問題。別的不說,我們熟知的“抽樣”統計的方法,最初就是為了解決數據量太過龐大,然而計算能力并無法允許我們直接采用全樣本進行估計而設計的。
2. 用傳統統計學無法處理大數據是因為編程技術不足么?
2010年之后,大多數人覺得“分布式”計算是未來處理大數據的主要方向,分布式計算主要的想法是: “組件之間彼此進行交互以實現一個共同的目標。把需要進行大量計算的工程數據分割成小塊,由多臺計算機分別計算,再上傳運算結果后,將結果統一合并得出數據結論的科學。
然而人們由于過度迷信這種分布式運算帶來的“便利之處”,早就忘了很久以前,我們可能就已經存在解決問題之道,并且可能甚至比分布式運算來得更好。統計學者們在50年前就開始研究如何利用數據的抽象原理來快速求解及其復雜的整體最優問題,并且早早地在抽象數學和具象的計算遠離之間構架起了橋梁。
分布式處理技術事實上很多時候與之前發現的技術相比并不具備太大優勢,其最主要的優勢在于:“使用世界各地上千萬志愿者計算機的閑置計算能力,通過互聯網進行數據傳輸(志愿計算)。”這樣簡單粗暴的計算方式讓我們不再去思考如何優雅地解決問題,而是把注意力更多地放在如何“更快地得到答案”以及“更實用”這兩點上。
在這種思維模式下,人們越來越少真正去思考數據背后的意義,以及如何策略性地選擇和分析數據的問題。很可惜,現在市場上的聲音只剩下了“大數據”狂熱者們的搖旗吶喊:“統計有什么用?只要算法足夠精妙,計算機足夠強大就行了”。
3. 是不是只有學了“大數據”專業才能在大公司找到工作?
許多“大數據”愛好者都覺得只有學了大數據專業才有可能會被谷歌或者亞馬遜這樣的大公司錄取。
當然這樣的想法也不是空穴來風,在巨大的市場需求驅動下,現在的確是”大數據“的黃金年代,美國僅僅2014年就有440萬與大數據相關的工作被提供,而大多數的這類職位的需求都是:“你需要懂得計算機編程,以及處理數據”。這就使得許多傳統統計方向畢業的學生直接被拒之門外,只能望洋興嘆。
另一方面在大量的市場需求下,許多人有了濫竽充數魚目混珠的機會,這優秀的數據工作者和“普通的”數據工作者往往很難在第一時間被市場分辨出來。這就導致了市場上有太多數據工作者,但是極少數的人能夠夠格稱得上“數據科學家”。大多數時候,一個“數據科學家”的職位往往意味著你需要有很多的工作經驗,或者是名校的統計或者計算機系的博士文憑。真正的好公司也不傻,大家只愿意支付高額薪水給那些真正可以“讀懂”數據的人。而讀懂二字背后意味著不是只是會跑跑程序畫畫統計圖就夠了的。返回搜狐,查看更多
責任編輯: