china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關注微信公眾號
移動端
創頭條企服版APP

什么是數據湖,它又是如何作用于大數據分析的?

7925
網絡大數據 2019-09-18 12:08 搶發第一評
一般情況下,要使大數據項目成功,至少需要兩件事:其一,知道需要什么可操作的數據;其二,獲得正確的數據來進行分析和利用,以實現預期目

一般情況下,要使大數據項目成功,至少需要兩件事:其一,知道需要什么可操作的數據;其二,獲得正確的數據來進行分析和利用,以實現預期目標。

?

?

然而,有很多不同形式的數據有著形色各異的來源,并且,這種數據量,或者多樣性等會隨著時間的推移而呈指數型增長。

數據湖是在快速增長和日益非結構化的大數據領域中結束數據孤島的一種方式。

在未來幾年,工業物聯網將快速增長。這種增長,會出現更多或更優質的數據:數據在整個物聯網體系中的有著舉足輕重的地位,其作用是獲得更精確的洞察力,推動相關行動和運營,以達成期望目標。為了進行有目的大數據分析,為智能應用程序提供智能數據,也就意味著不可避免地需使用人工智能來分析所有這些數據。

數據湖是將所有不同種類數據收集、存儲、分析并轉化為洞察力和決策的地方,包括結構化、半結構化和非結構化數據。

傳統上,數據存儲于整個組織(內部數據)及其運作的生態系統(外部數據)中。這是一個挑戰:如果數據在云內云外無處不在,那就不能將有效的數據組合在一個大數據項目中。

作為一個概念,數據湖是由Pentaho的首席技術官James Dixon推廣的,并將其視為是比數據集或數據中心更適合于大數據的存儲庫。

以下是Dixon于2011年在博客上對數據湖的定義:“如果將數據中心視為商店的經過清潔、包裝和結構化的瓶裝水,那數據湖便是一個更自然的大水體。數據湖中的內容從源頭流入湖中,用戶可以在湖中進行檢查、潛水或采集樣本“。

數據湖是具有分析和行動目的存儲庫。

在本質上,大數據湖是一個存儲庫,包含大量原始的、原生格式的數據。

傳統的數據管理方法不適合處理大數據或進行大數據分析。通過大數據分析,可找到不同數據集之間的關聯,這些數據集需要合并才能實現我們的業務目標。如果這些數據集位于完全不同的系統中,那幾乎是不可能實現的。

比如,我們可以將來自一個來源的客戶數據與其他來源的數據,甚至似乎不相關的數據結合起來(例如,交通數據、天氣數據等似乎與我們的業務無關的客戶數據)。并采取相應的措施,以提高客戶體驗,提出新的服務,或提高銷售額。

自下而上的數據分析:攝入數據以填滿數據湖

數據分析和數據湖有什么關系?大數據湖是分析的兩種信息管理方法之一。

第一個是自上而下的數據倉庫,第二個是自下而上的數據湖。為了讓他更直觀,讓我們想象一個真正的湖的形象。湖不會平白無故的被填滿,通常有河流或較小的溪流給它帶來水。

數據湖是專為大數據分析而設計的,以解決大數據中的數據孤島問題。

在數據湖中也會發生同樣的情況。這也被稱為數據的攝入,不論其來源或結構如何。通過上述數據分析,我們需收集實現目標所需的所有數據。

這些“數據流”有幾種格式:結構化數據(簡單地說,來自傳統關系數據庫甚至電子表格的數據:行和列), 非結構化數據 (社交、視頻、電子郵件、短信……),來自各種日志的數據(如網志、點擊流分析……)、機器對機、物聯網和傳感器數據,您可以將其命名為日志和XML,也稱為半結構化數據。

它們還涉及從全局的角度來看各種類型的數據:客戶數據、業務應用程序的數據、銷售數據等(通過API輸入數據湖)。顯然,我們將在大多數時候需利用外部數據以實現我們的目標。

數據湖的使用:存儲、分析和可視化

所有這些數據,只要它有意義,就會存儲在數據湖中,同時它也會通過應用程序接口協議API,或從各種應用程序和系統中通過批處理過程不斷輸入數據。

存儲維度是第二部分(攝入是第一部分)。在大數據湖中,這實際上意味著沒有數據孤島。因此,這意味著我們即將開始一項有趣的工作:大數據分析。

要知道,我們合并的數據集有時看起來是無關的,例如,我們可以使用人工智能來檢測購買行為和天氣狀況之間的模式,來自一個來源的客戶數據和另一個來源的客戶數據,交通數據和污染數據之間的模式,這種模式不勝枚舉。我們能用這些模式做什么?正如你所能想象的那樣,在現實生活中,大量的大數據使用示例表明,這就是你的業務或其他目標發揮作用的地方。

顯然,光是分析是不夠的。你還需對所分析的東西進行想象、理解和行動。正如EMC關于數據湖如何工作的信息圖表所示:流出的水是經過分析的數據,然后會采取相關的行動,進而產生商業洞察力。

?

?

為什么是數據湖?

如前所述,傳統上有兩種分析的信息管理方法。為什么數據湖(自下而上的方法)在數據分析中很受歡迎?

原因有很多。首先,重要的是要理解我們對數據湖的看法并不完全正確,它不僅僅是一些自下而上的大混亂數據沼澤。其中涉及到相當多的技術,協議等等。要妥善利用溪流進入湖中的圖像:在水真正進入湖中之前,就已經安裝了過濾器。

1. 歷史遺留數據體系結構的挑戰

數據湖更受歡迎的一部分原因是歷史原因。

傳統的數據系統并不是那么開放,如果想要集成、添加和混合數據以進行分析和操作的話,也不是很容易。傳統數據架構的分析也不那么精確,成本也不低(需要額外的工具,取決于軟件)。此外,它們的構建沒有考慮到我們通常在大數據中的所有新的和正在出現的(外部)數據源。

2. 更快的大數據分析能力

使用數據湖的另一個重要原因是大數據分析可以更快地完成。

事實上數據湖是為大數據分析而設計的,更重要的是,它是為基于實時分析的實時操作而設計的。數據湖適合以一致的方式利用大量數據,并使用算法驅動實時分析。

3. 混合和匯聚數據:一個數據湖中的結構化和非結構化數據

數據湖還有一個優點是,可以獲取、融合、集成和聚合所有類型的數據,而不論其來源和格式如何。

Hadoop是數據湖體系結構之一,它還可以處理主要數據塊之上的結構化數據,也包括來自社會數據、日志等非結構化數據。順便提一句:非結構化數據是所有數據中增長最快的形式(即使結構化數據也在不斷增長),預計將達到所有數據的90%。

4. 將數據分析移到數據湖和邊緣

還有一個事實是,來回移動大型數據集并不是明智的做法。

有了大數據湖,應用程序會更接近于數據的所在。從這個意義上講,你可以看到應用程序移動到邊緣,而不是存儲庫中心,即以更快的速度移動并減輕網絡等方面的負擔。這是霧計算的精髓所在,它是工業4.0和工業互聯網背景下,邊緣計算在數據分析領域的最新應用。

5. 數據湖的靈活性隨用戶的需要增長而擴展

數據湖具有高度的可伸縮性和靈活性。這不需要過多的闡述,系統和進程可以很容易地進行縮放,以處理越來越多的數據。

?

?

6. 節約企業數據倉庫資源

最后一個優點是,正如上面來自PwC的說明所示,數據湖可以作為數據倉庫(EDW)的中轉區域。

然后,它僅用于將相關數據傳遞到倉庫,從而節省EDW資源。

數據湖的挑戰、風險和演變

大數據湖有諸多的好處,同時,也有風險和挑戰需應對。

如果沒有正確的戰略設計,并考慮到必要的目標,數據湖可能成為數據沼澤。這也是為什么企業從非常傳統的數據湖方法轉向面向目標和業務導向的方法的原因。

顯然,應該從業務驅動和戰略方針著手來處理數據湖。然而,傳統上,這些數據往往是從不斷上升的數據量角度和最終所有數據都具有潛在價值的觀點來看待的。

雖然這個價值確實是有潛力的,但相當多的公司表現得像數據囤積者。此外,公司是否需要一個數據湖,如果需要,是否可以從數據湖中獲得價值。

Gartner2015年的一份報告中顯示,一些公司的Hadoop((數據湖架構的領先者)是過猶不及的,技術上的差距是阻礙發展的主要原因。

大數據湖的規模

由于大數據量和大數據使用量不斷增長,大數據規劃的廣度、深度和包容性都在增加,因此數據湖的大小顯然也在不斷增長。

一篇Dimensional Research2018年大數據趨勢和挑戰報告的博客文章指出,平均數據湖大小超過100太字節的組織比例從2017年的36%增長到2018年的44%( 一年內增加22%)。這種趨勢只會持續下去,而且是大數據處理向云轉變的眾多驅動因素之一。

然而,難題依然存在:如何從所有這些數據中獲取價值。決策和行動是市場如何發展的關鍵驅動力。

確保數據湖不會變成數據沼澤

讓我們更深入地研究這些數據沼澤。如前所述,在數據湖的早期,重點是大數據的容量方面,許多企業實際上使用數據湖作為轉儲數據的地方。

這導致了數據沼澤的現象,需采取適當的方法保持數據湖的清潔。

?

?

直到今天,仍然聽到一些組織提出常規性的問題,比如:“我應該用一個數據湖來替換我的數據中心嗎?”。數據湖經常與數據中心相比較,雖然理解這些差異很重要,但問題是使用什么,什么時候使用并不是重點,正如咨詢師所言,你真正需要的是什么,要視情況而定。

我們的旨在通過數據倉庫、數據分析和商業智能環境來解決它們所適應的商業智能環境的問題。

數據可實現什么; 如何從這些數據中獲得更多的價值; 通過高級分析將數據貨幣化的用例有哪些; 我們需要什么技能; 我們的業務是如何由數據驅動的; 我們今天的處境(包括技能和文化) 在法規范圍內,我們需要考慮到哪些有關敏感數據的問題; 。。。

當數據湖的數據情況變得清晰無誤時,就不難確保它不會變成一個數據沼澤。這種討論已經進行了很長時間,數據湖需要更多的策略和關注。

?

?

改變數據湖的要素:云、分析、價值和AI/ML

當然,數據湖也不像以前所觸及的那樣了。在早期,數據湖本質上是添加Hadoop,并保留所有現有的內容,而現在,我們可以更多地使用云中的數據。

最初,一個數據湖是給那些有技能和能力的用戶使用:找到他們想要的數據,然后能夠使用模式在讀技術來處理這個問題。幸運的是,SQL正在進入數據湖,我們開始學習如何對其中的不同島嶼建模,讓用戶直接訪問數據湖中的數據。

云的增長速度和它在業務中總體增長速度一樣快。很明顯,數據湖的未來意味著云,盡管某些行業也會有例外,其中包括監管問題,以及傳統上對公眾云采取更為謹慎的做法。

?

?

一些企業顯然也從過去所犯的錯誤中吸取了教訓,最后,隨著人工智能和機器學習變得更加重要,重點更多的放在結果和價值上,以及對近實時分析、高級分析和可視化的需求,人們更加關注結果和價值。

我們還看到數據湖向商業智能解決方案轉變。簡單地總結一下:數據湖景觀發展迅速,其本質仍然是將數據轉化為價值和更好地實現這一目標的手段,技術前沿的大量趨勢和經驗教訓,使得我們很難將數據湖的過去與現在進行比較,更不用說未來了。許多組織表示,它們計劃部署一個數據湖,并轉向云,這一未來看上去相當光明。

要知道,當數據湖變得流行時,大數據仍然是一個熱門詞,至少大數據已經變得無所不在了。大數據就是數據,問題是如何處理它。總的來說,數據的成熟度已經提高,新一代的專家知道,大數據分析是獲得價值的關鍵所在,你對待數據的方式與傳統數據倉庫時代不同-關于利用大數據的思維方式和文化已經在醞釀。

分享到:0收藏

上一篇:Hadoop發生了什么?我們該如何做? 騰訊萬億級大數據組件 TubeMQ 正式開源下一篇:

聲明:該文章版權歸原作者所有,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯系。
您閱讀這篇文章花了0
轉發這篇文章只需要1秒鐘
喜歡這篇 0
評論一下 0
凱派爾知識產權全新業務全面上線
相關文章
評論
試試以這些內容開始評論吧
登錄后發表評論
凱派爾知識產權全新業務全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創服務
歷史搜索 清空

Tel:18514777506

關注微信公眾號

創頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
大桥未久av一区二区三区中文| 欧美日韩免费在线视频| 蜜臀av一区二区| 国产激情视频一区二区在线观看| 成人性视频免费网站| 26uuu精品一区二区| 自拍偷拍亚洲激情| 日韩福利视频导航| 豆国产96在线|亚洲| 3atv在线一区二区三区| 欧美国产一区在线| 石原莉奈一区二区三区在线观看| 国产伦理精品不卡| 欧美精品一级二级| 亚洲精品v日韩精品| 韩国精品久久久| 欧美日韩一区不卡| 香蕉久久一区二区不卡无毒影院| 激情久久五月天| 国产日韩欧美精品在线| 日韩高清不卡在线| 精品国产sm最大网站| 婷婷综合另类小说色区| 91在线国内视频| 久久精品一区二区三区不卡| 麻豆一区二区三区| 国产亚洲精品aa午夜观看| 91视频91自| 亚洲精品日日夜夜| 91麻豆精品国产91久久久更新时间| 韩国三级在线一区| 亚洲丝袜另类动漫二区| 欧美日本一区二区三区| 天堂在线一区二区| 日本一区二区三区电影| 欧美在线一二三| 亚洲福利视频导航| 欧美日韩亚洲综合一区二区三区| 美女视频黄免费的久久| 亚洲免费看黄网站| 欧美日韩在线直播| 国产福利精品一区| 午夜影院久久久| 国产精品国产三级国产aⅴ中文| 国产精品 日产精品 欧美精品| 亚洲在线视频免费观看| 91精品国产综合久久久久久久| 成人午夜免费电影| 另类的小说在线视频另类成人小视频在线| 日韩欧美中文一区| 美女在线一区二区| 一区二区成人在线视频| 91精品一区二区三区在线观看| 亚洲国产成人高清精品| 欧美午夜电影在线播放| 欧美美女一区二区| 一区二区三区加勒比av| 91电影在线观看| 日韩欧美电影一区| 国产伦精品一区二区三区免费迷| 午夜电影一区二区三区| 亚洲伊人色欲综合网| 亚洲精品成a人| 亚洲一卡二卡三卡四卡| 一区二区三区不卡视频在线观看| 亚洲青青青在线视频| 亚洲欧美激情小说另类| 一区二区三区视频在线看| 亚洲综合激情网| 丝袜美腿一区二区三区| 麻豆成人免费电影| 国产精品99久久久久久宅男| 天天影视色香欲综合网老头| 天天综合色天天综合| 久久成人精品无人区| 国产福利91精品一区| 99久久综合色| 成人免费黄色大片| 欧美在线观看视频一区二区| 欧美久久一区二区| 久久综合久久鬼色| 亚洲日本青草视频在线怡红院 | 亚洲国产精品久久不卡毛片| 青青草国产精品97视觉盛宴| 一区二区三区四区乱视频| 日韩中文字幕1| 岛国一区二区在线观看| 欧美午夜片在线看| 国产欧美一区二区在线| 亚洲高清免费一级二级三级| 国产一区二区主播在线| 91行情网站电视在线观看高清版| 日韩欧美一区二区在线视频| 中文一区二区在线观看| 五月婷婷激情综合| 成年人网站91| 91在线无精精品入口| 欧美一卡二卡三卡| 2020国产成人综合网| 亚洲精品成人a在线观看| 国产一区视频导航| 欧美人妇做爰xxxⅹ性高电影| 国产精品久久久久久久久免费樱桃| 肉肉av福利一精品导航| 99re热视频这里只精品| 久久久久国产免费免费| 国产精品久久久久毛片软件| 免费视频一区二区| 欧美日韩在线观看一区二区 | 91精品一区二区三区久久久久久| 国产精品第一页第二页第三页| 日本aⅴ免费视频一区二区三区 | 日韩免费成人网| 亚洲成人激情av| 91麻豆成人久久精品二区三区| 久久久亚洲午夜电影| 久久99精品久久只有精品| 国产大片一区二区| 337p亚洲精品色噜噜狠狠| 精品999久久久| 美女一区二区在线观看| 欧美一区二区三区视频| 午夜精品爽啪视频| 7777精品久久久大香线蕉| 天天综合日日夜夜精品| 欧美理论电影在线| 日韩和欧美一区二区三区| 91精品免费在线| 麻豆成人在线观看| ww久久中文字幕| 国产成人高清视频| 亚洲欧洲无码一区二区三区| 亚洲二区视频在线| 欧美在线不卡一区| 性久久久久久久久久久久| 欧美精品一级二级| 精品一区二区三区视频在线观看 | 欧美一区二区三区精品| 捆绑紧缚一区二区三区视频| 欧美成人aa大片| 亚洲成人免费电影| 日韩欧美三级在线| 国产成人av福利| 综合久久国产九一剧情麻豆| 日本大香伊一区二区三区| 亚洲成av人片在www色猫咪| 欧美一区二区三区思思人| 精品一区二区三区在线播放| 国产精品欧美一区喷水| 国产一区在线视频| 中文字幕中文字幕在线一区 | 欧美三级在线播放| 激情图区综合网| 一区二区三区在线不卡| 精品噜噜噜噜久久久久久久久试看| 国产成人在线视频播放| 亚洲国产精品一区二区久久恐怖片 | 欧美色图免费看| 国内国产精品久久| 亚洲影院久久精品| 国产色产综合色产在线视频| 欧美在线视频不卡| 国产iv一区二区三区| 婷婷开心久久网| 亚洲色图制服诱惑 | 精品免费国产二区三区| 色欧美片视频在线观看在线视频| 国产精品灌醉下药二区| 日韩亚洲国产中文字幕欧美| 色综合久久久久| 粉嫩一区二区三区在线看| 美女国产一区二区三区| 亚洲高清久久久| 亚洲欧洲av另类| 国产亚洲精品aa午夜观看| 日韩欧美国产一区在线观看| 欧美网站一区二区| 91香蕉视频污在线| 不卡av电影在线播放| 国产自产视频一区二区三区| 天天影视色香欲综合网老头| 亚洲精品福利视频网站| 国产精品素人视频| 国产精品无遮挡| 中文字幕高清不卡| 国产婷婷精品av在线| 久久夜色精品国产欧美乱极品| 5858s免费视频成人| 欧美高清精品3d| 日韩一级二级三级| 日韩一区二区免费在线电影| 在线观看91精品国产麻豆| 69堂亚洲精品首页| 日韩久久久久久| 久久影院视频免费| 欧美韩国日本不卡| 最新欧美精品一区二区三区| 国产精品二三区| 亚洲永久免费视频| 麻豆成人久久精品二区三区小说|