china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關注微信公眾號
移動端
創頭條企服版APP

如何使用 Hadoop 構建大規模數據產品?

5750
網絡大數據 2019-10-09 13:25 搶發第一評
數據科學家(名詞):指比所有軟件工程師更擅長統計學,并且比所有統計學家更擅長軟件工程的人。

什么是數據科學家?Josh Wills 經常被引用的推文 給我們提供了以下定義:

數據科學家(名詞):指比所有軟件工程師更擅長統計學,并且比所有統計學家更擅長軟件工程的人。

當然,這與數據產品僅僅是數據與統計算法的結合這一想法十分吻合。軟件工程和統計學知識都是數據科學的基礎。然而,在一個需要產品從數據中獲取價值并產生新數據的經濟體系中,構建數據產品其實就是數據科學家的工作。

Harlan Harris 提供了有關數據產品的更多細節:它們建立在數據、領域知識、軟件工程和分析技術的交叉點上。由于數據產品是系統,因此構建它們需要工程技能,通常是軟件工程方面的技能;由于它們由數據驅動,因此擁有數據是必要條件;領域知識和分析技術是用于構建數據引擎的工具,通常通過實驗完成,因此是數據科學的“科學”部分。

由于需要使用實驗方法學,因此大多數數據科學家會采用典型的分析工作流:采集 → 整理 → 建模 → 報告和可視化。然而,這種所謂的數據科學流水線完全由人力驅動,再輔以腳本語言(如 R 和 Python)的使用。流水線的每一個環節都需要人類的知識和分析技能,意在產生獨特且不可泛化的結果。雖然這個流水線是很好的統計和分析基礎框架,但它不能滿足構建數據產品的需求,特別是當想從中獲取價值的目標數據大到無法在一臺筆記本電腦上處理時。隨著數據越來越多、越來越多變、產生的速度越來越快,自動獲取有用信息而無須人工干預的工具也變得越來越重要。

利用大型數據集

直覺告訴我們,觀測越多,數據就越多——這真讓人喜憂參半。人類擁有發現大規模模式的卓越能力(我們以森林和林中空地作為隱喻)。理解數據的認知過程涉及概覽數據,深入研究具體層面的細節,然后再回到概覽角度。這個過程中的細節并不一定可靠,因為細粒度(隱喻中的葉子、分枝或單棵樹木)會限制我們的理解能力。多數數據既可能是模式和信號,也可能是噪聲和干擾。

通過聚合和索引描述數據,或者直接對數據建模,統計方法使我們能夠處理摻雜著噪聲和信號的數據。雖然這些技術能幫助我們理解數據,但是它們以犧牲計算粒度為代價,例如有意義的罕見事件可能會被模型排除。兼顧罕見事件的統計技術能利用計算機同時跟蹤多個數據點,但也需要更多的計算資源。因此,傳統的統計方法會對較大的數據集采取抽樣方法,用較小的數據子集替代總體。樣本越大,模型包括罕見事件且能將其捕獲的可能性就越大。

隨著收集數據的能力越來越高,我們對通用性也有了更大的需求。過去十年間,由于數據和機器學習算法的緊密結合,新穎的成果紛紛問世,數據科學得到了空前的發展。智能電網、“量化自我”、移動技術、傳感器和互聯家庭要求我們應用個性化的統計推斷。規模不僅與數據量有關,也與需要探索多少方面有關——就好像森林中的每棵樹一樣。

Google 的兩篇論文描述了一個完整的分布式計算系統;Hadoop 是其開源實現,它將我們帶入了大數據時代。然而,分布式計算和分布式數據庫系統并不是新的話題。在那兩篇論文發表之前,與 Hadoop 的計算能力相當的數據倉庫系統就早已存在于工業界和學術界。Hadoop 之所以與眾不同,一方面是因為數據處理能帶來經濟效益,另一方面是因為 Hadoop 是一個平臺。但是真正使 Hadoop 獨樹一幟的原因其實是它出現的時機——恰恰在一個需要大規模數據分析解決方案的時刻,它問世了。而且它不僅能分析總體的統計數據,還能獲得個體級別的通用性和洞察力。

數據產品中的 Hadoop

一開始,Hadoop 的使用者是那些面臨大數據挑戰的大公司,比如 Google、Facebook 和 Yahoo。然而,Hadoop 之所以這么重要,以及促使你拿起本書的原因,恰恰是因為面臨數據挑戰的不再只是科技巨擘。大大小小的商業機構和政府機構——從企業到創業公司,再到聯邦機構和市政府,甚至是每個人,都面臨著數據挑戰。計算資源變得廉價且唾手可得——就像 PC 時代的黑客在車庫里使用手邊的電子產品搞創新,現在的創業公司使用 10 節點~ 20 節點的小集群在數據探索上搞創新。云計算資源(如 Amazon EC2 和 Google Compute Engine)使數據科學家可以及時、按需地訪問大規模集群,而且成本較低,也無須進行數據中心管理。Hadoop 使大數據計算更貼近大眾,也更平易近人,下面的例子說明了這一點。

2011 年,Lady Gaga 發行了她的專輯 Born This Way,這個事件為社交媒體帶來了約 1.3 萬億條信息,包括點贊、推文、圖像和視頻。Lady Gaga 的經紀人 Troy Carter 馬上發現了一個將粉絲聚集起來的機會。經過大量的數據挖掘工作,他成功將 Twitter 和 Facebook 上的數百萬粉絲聚集到了 LittleMonsters.com 這個只針對 Lady Gaga 的小社交網絡中。該網站的成功促使 Backplane(現在叫 Place)誕生,這是一個用于生成和管理由小型社區驅動的社交網絡的工具。

2015 年,紐約市警察局安裝了一個價值 150 萬美元的聲學傳感器網絡,名叫 ShotSpotter。該系統能夠檢測與爆炸或槍擊相關的脈沖聲,使應急響應人員能夠快速響應在布朗克斯區發生的事件。重要的是,這個系統還很智能,可以預測是否會發生后續的槍擊事件及其大致位置。ShotSpotter 系統發現,自 2009 年以來,有超過 75%的槍擊事件沒有報告給警察。

“量化自我”運動越來越受歡迎,各家公司也一直努力在消費者中廣泛普及可穿戴技術設備、個人數據收集設備,甚至是基因測序儀器。2012 年,美國的《平價醫療法案》規定健康計劃對電子病歷實施標準化、安全、保密的共享方法?;ヂ摷彝?、移動設備以及其他個人傳感器每天都在產生大量個人數據,這引發了人們對隱私的關注。2015 年,英國研究人員創建了 Hub of All Things(HAT)。這是一項個性化的數據集合技術,用于處理“誰擁有你的數據”這一問題,并為個人數據的聚合提供技術解決方案。

傳統上,大規模的個人數據分析一直屬于社交網絡的范疇,如 Facebook 和 Twitter。但幸好有了 Place,大型社交網絡現在成為了個人品牌和藝術家的誕生之地。每個城市面臨的數據挑戰都不一樣,盡管針對典型城市的泛化可以滿足許多分析的需求,但是新的數據挑戰仍然不斷出現,對每個城市分別進行研究勢在必行。(比如工業、航運或天氣對聲學傳感器網絡有什么影響?)怎樣使技術為消費者提供價值,在使用他們的個人醫療記錄時不侵犯他們的隱私,避免與其他人的記錄聚合?怎樣使個人醫療診斷數據挖掘變得更安全?

數據產品的出現正是為了切實回答這些問題。Place、ShotSpotter、“量化自我”產品和 HAT 等通過提供應用程序平臺和決策資源供人們采取行動,從數據中獲取價值并產生新數據。它們提供的價值是明確的,但要處理數萬億的點贊數據和數百萬個麥克風生成的大量數據集,或者我們每天生成的海量個人數據,傳統的軟件開發工作流無法應對這一挑戰。大數據工作流和 Hadoop 使這些應用程序成為可能并且可個性化。

作者:Benjamin Bengfort

譯者:王純超

內容來自作者圖書作品《Hadoop 數據分析》

分享到:0收藏

上一篇:一看就懂的10個數據可視化技巧 數據技能正成職場“神技”,市場需求5年間增長7倍下一篇:

聲明:該文章版權歸原作者所有,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯系。
您閱讀這篇文章花了0
轉發這篇文章只需要1秒鐘
喜歡這篇 0
評論一下 0
凱派爾知識產權全新業務全面上線
相關文章
評論
試試以這些內容開始評論吧
登錄后發表評論
凱派爾知識產權全新業務全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創服務
歷史搜索 清空

Tel:18514777506

關注微信公眾號

創頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
国产精品18久久久久| 国产成人av一区| 国产精品一区一区| 欧美午夜影院一区| 国产欧美一区视频| 日韩高清在线观看| 色综合天天综合色综合av| 亚洲最新视频在线观看| 激情综合五月天| 欧美日韩一区视频| 中文字幕一区二区三区不卡在线 | 亚洲视频小说图片| 理论电影国产精品| 欧美日韩一区二区三区在线看| 国产精品久久久久桃色tv| 国精品**一区二区三区在线蜜桃| 欧美日本一区二区三区四区| 亚洲男同1069视频| heyzo一本久久综合| 久久亚洲一区二区三区明星换脸| 日本成人中文字幕在线视频| 欧美亚洲高清一区二区三区不卡| 国产精品色一区二区三区| 国内精品在线播放| 欧美一区二区三区系列电影| 午夜精品一区二区三区免费视频 | 亚洲欧美视频一区| 国产精品888| www久久久久| 免费观看在线色综合| 91国产免费看| 亚洲婷婷综合色高清在线| 国产盗摄精品一区二区三区在线 | 青草av.久久免费一区| 欧美日韩在线综合| 亚洲自拍与偷拍| 99在线精品一区二区三区| 中文字幕的久久| 成人免费毛片片v| 国产婷婷色一区二区三区四区 | 欧美私模裸体表演在线观看| 亚洲免费成人av| av在线不卡网| 综合久久久久久| 波多野结衣视频一区| 国产精品理伦片| 99久久免费国产| 亚洲人吸女人奶水| 色婷婷久久99综合精品jk白丝| 亚洲人成伊人成综合网小说| 91色九色蝌蚪| 亚洲一区二区视频| 欧美麻豆精品久久久久久| 日韩激情一区二区| 日韩三级av在线播放| 久久国产精品72免费观看| 精品91自产拍在线观看一区| 国产成人三级在线观看| 中文字幕中文字幕一区| 一本久久a久久精品亚洲 | 欧日韩精品视频| 午夜免费久久看| 日韩你懂的在线播放| 精品在线播放免费| 国产日韩精品一区二区三区在线| 99视频精品免费视频| 一区二区三区加勒比av| 欧美肥妇free| 韩国av一区二区三区| 欧美国产激情二区三区 | 亚洲精品国产a久久久久久| 欧美唯美清纯偷拍| 麻豆极品一区二区三区| 国产欧美一区二区三区鸳鸯浴| 成人久久视频在线观看| 亚洲一区二区视频在线观看| 欧美一区二视频| 国产精品系列在线播放| 欧美日韩日本视频| 蜜桃视频免费观看一区| 国产视频在线观看一区二区三区| aaa亚洲精品| 亚洲成人免费在线观看| 日韩女同互慰一区二区| 成人在线综合网| 亚洲一区二区不卡免费| 精品国偷自产国产一区| 9i看片成人免费高清| 久久精品一区八戒影视| 91啦中文在线观看| 日本不卡一二三区黄网| 欧美精品一区男女天堂| 不卡区在线中文字幕| 亚洲午夜精品17c| 久久久亚洲综合| 91久久免费观看| 韩国v欧美v亚洲v日本v| 一区二区三区影院| 精品国产制服丝袜高跟| 99久久精品免费看| 免费看黄色91| 中文字幕制服丝袜一区二区三区| 成人一区二区在线观看| 香蕉成人伊视频在线观看| 国产喷白浆一区二区三区| 欧美天堂一区二区三区| 国产精品一卡二卡在线观看| 亚洲成av人影院在线观看网| 久久久国际精品| 欧美精品欧美精品系列| 成人av中文字幕| 美国十次了思思久久精品导航| ...中文天堂在线一区| 欧美videossexotv100| 色婷婷综合久色| 国产精品一区二区三区99| 国产精品无圣光一区二区| 欧美一级淫片007| 91丝袜美腿高跟国产极品老师 | 欧美一区二区成人| 99久久99久久精品免费观看| 久久精品免费观看| 一区二区三区四区精品在线视频| 日韩女优av电影| 欧美日韩在线播放| a级高清视频欧美日韩| 国产在线看一区| 午夜免费欧美电影| 1区2区3区精品视频| 欧美成人国产一区二区| 欧美日韩日日夜夜| 亚洲一卡二卡三卡四卡无卡久久| 久久久99精品免费观看不卡| 欧美精品丝袜中出| 91在线视频免费91| 国产乱一区二区| 日本欧美一区二区三区乱码| 亚洲精品免费播放| 国产嫩草影院久久久久| 日韩美女主播在线视频一区二区三区| 色哦色哦哦色天天综合| zzijzzij亚洲日本少妇熟睡| 国产精品一二三| 麻豆久久久久久| 午夜精品福利一区二区三区av| 亚洲婷婷国产精品电影人久久| 国产清纯白嫩初高生在线观看91| 欧美精品一级二级| 色老头久久综合| 91丨porny丨最新| 丁香天五香天堂综合| 经典三级视频一区| 日本欧美肥老太交大片| 石原莉奈在线亚洲三区| 亚洲1区2区3区4区| 亚洲一区在线观看免费| 亚洲精品日韩一| 亚洲日本免费电影| 国产精品久久久久精k8 | 国内精品写真在线观看| 麻豆精品一区二区| 日韩av不卡一区二区| 亚洲成人精品在线观看| 亚洲午夜私人影院| 亚洲午夜三级在线| 亚洲一区二区高清| 亚洲与欧洲av电影| 亚洲综合清纯丝袜自拍| 亚洲精品中文在线| 一区二区三区免费网站| 自拍av一区二区三区| 最新日韩av在线| 亚洲嫩草精品久久| 亚洲免费资源在线播放| 亚洲激情综合网| 亚洲一区二区三区自拍| 亚洲一区在线视频观看| 洋洋av久久久久久久一区| 一区二区三区免费网站| 亚洲午夜激情网站| 日日夜夜精品视频免费| 视频一区视频二区中文| 蜜桃av噜噜一区二区三区小说| 久久精品久久精品| 国内精品久久久久影院一蜜桃| 国产一区二三区好的| 国产成人在线看| 成人av网站免费| 在线免费av一区| 欧美日韩一级黄| 欧美一区二区三区在线视频 | 人人狠狠综合久久亚洲| 久久精品国产99国产| 国产乱子伦一区二区三区国色天香| 亚洲三级在线播放| 一区二区三区av电影| 日韩精品五月天| 久久 天天综合| 国产成人精品www牛牛影视| 99r国产精品|