china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關注微信公眾號
移動端
創頭條企服版APP

一個案例告訴你如何使用Kyligence + Spark 進行大數據機器學習

6181
網絡大數據 2019-09-11 18:29 搶發第一評
今天,大數據、數據科學、機器學習分析不再只是熱詞,已經真實地滲透于生活方方面面。根據福布斯,到 2025 年,全球每年將會有 175 澤字節的數據產生。

今天,大數據、數據科學、機器學習分析不再只是熱詞,已經真實地滲透于生活方方面面。根據福布斯,到 2025 年,全球每年將會有 175 澤字節的數據產生。Kyligence 的誕生為企業帶來了極速的大數據分析體驗 。當企業要對大規模的數據進一步進行更為復雜的分析如對銷售額進行預測時,傳統的分析工具就捉襟見肘了 。

這篇文章將以基于 Spark 的分布式機器學習平臺 Databricks 為例,為您提供一套從以 Kyligence 為數據源到分布式數據分析平臺的高效無縫的解決方案。

對企業未來銷量進行預測是一個很普遍的分析需求。分析師需要先以不同的時間粒度如日或月,或者是其他維度粒度如地區,商品等聚合數據,然后按不同的算法預測聚合后的數據。相類似的預測、分析場景還有很多,如運維數據的異常值檢測,金融數據的反欺詐識別,銷售數據的用戶畫像等。在數據被深入挖掘之前,都需按維度列或時間戳聚合數據。然而想順滑地聚合如此海量的數據,并且深入挖掘數據并不簡單。

對海量數據進行挖掘的難點

聚合大量數據,復雜度高,所耗時間長

當數據量呈規模式增加時,即使是執行一條簡單的篩選查詢也會消耗很多時間,并且查詢語句復雜度越大,執行語句所花時間就會越長。因此,數據科學家稍調整篩選條件,就會重新陷入等待中。

分析維度的粒度很難隨意變動

由于高額的查詢成本,數據科學家們會更傾向于聚合有潛在關聯的數據維度。這種前瞻性在提高數據科學家們分析效率的同時,也局限了他們的數據探索能力,導致錯失發現一些不易察覺的數據規律的機會。

無法實現數據源到分析平臺的無縫連接

目前,在大數據領域,數據科學家們最常用的預處理數據工具主要有 Hive,Spark,Pig,Scala 等。而如果想對這些數據進一步的分析,需要從這些工具中導出聚合后的數據,再將其導入到機器學習平臺。導入導出看似為簡單操作,實際上會打破分析人員工作的連貫性,尤其是當導入導出數據量過大時,他們的工作效率會大大降低。

機器學習工具復雜,生命周期難以管理

工具太過復雜、難以跟蹤實驗、難以重現結果、難以部署模型。很多企業已經開始構建內部機器學習平臺來管理機器學習生命周期。但這些內部平臺存在一定的局限性:典型的機器學習平臺只支持一小部分內置算法或單個機器學習庫。用戶無法輕易地使用新的機器學習庫,或與社區分享他們的工作成果。

解決方案:Kyligence + Spark

在分析師拉取數據之前,通過 Kyligence 將所需要的所有分析數據都已經以不同的維度、粒度提前聚合好,使得分析師們在極短時間內能直接獲取數據。在獲取聚合好的數據后,分析師們也無需先將數據導出,再導入專業的支持機器學習的分析平臺,也無需再因為適配不同的機器學習方法而安裝各種環境。而是直接在該專業的數據分析平臺上獲取數據,在適配好的環境中,用不同的方法進行近一步預測和分析。

?

?

Kyligence 與 Databricks 數據處理流程

應用門檻低,學習成本小

大數據分析普遍會采用分布式存儲及計算,使用者需要用了解 Java, Hadoop, Hive, Pig,Spark 等等大數據知識。而 Kyligence 為用戶提供了 SQL 查詢接口,Databricks 也提供了支持各種機器學習語言的環境,用戶無需了解底層原理,就能處理分析海量數據,擁有極佳的用戶友好度。

亞秒級查詢,隨意轉換特征值

相較于傳統的將數據聚合過程放在數據分析中,此方案在分析師分析數據之前已完成數據處理及聚合。Kyligence 可提前以不同的維度,維度粒度預聚合數據。因此,無論分析師要求獲得以何種維度聚合的數據,都能在亞秒級內得到返回結果。數據量,時間成本不再是試錯特征值的制約條件。

數據源與分析平臺無縫連接

以往的大數據在被分布式計算后,如果想用機器學習進一步分析,往往需要將數據導出,再導入機器學習分析平臺。而 Kyligence 和 Databricks 的組合允許用戶直接從數據分析平臺上獲取數據,無需導入導出。在 Databricks 的 notebook 中,用戶可通過 SQL 語句直接獲取被 Kyligence 預聚合的數據,省去遷移數據,轉換數據格式的麻煩。

專業機器學習分析平臺

Databricks 基于 Spark 提供用戶一個專業的分布式機器學習分析平臺,支持完整的機器學習生命周期。為用戶提供完備的機器學習環境,用戶無需自配置環境就可使用各種流行算法。

應用案例

一家名為 “Contoso ”的企業 擁有超過 100,000 的產品,數據集就包含多個事實表和維度表,數據量最大的事實表包含 2 千萬條在線銷售數據。(Contoso 是微軟虛擬的一家公司,其產生的數據主要用于模擬各種企業場景下的數據分析。)

分析目標: 根據 2007 年 1 月到 2009 年 5 月 31 日的在線銷售數據預測下半年的銷售額

Step 1: 數據處理

先將數據導入 Kyligence 中,然后轉到 Azure Databricks 的頁面,通過 PyPI 連接 Kyligence,輸入 SQL 獲取聚合數據數據,并且這一過程的數據導入所耗時間不超過兩秒。SQL 返回的數據集存儲為 Pandas 數據表格,然后對該數據表格處理為我們想要的格式,即對銷售量按月聚合,產生每月銷售量的數據集。然后用 LSTM 進行銷量預測。

?

?

step 2: 數據分析

生成模型訓練數據集

?

?

訓練集的窗口長度是指需要幾個時間點的值來預測下一個時間點的值。在這里窗口長度為 1,即用 t 次的時間間隔進行模型訓練,然后用 t+1 次的時間間隔對結果進行驗證。數據集格式為:dataX 為訓練數據,dataY 為驗證數據。我們選取數據集中前 36 的數據作為訓練集,后 6 的數據作為測試樣本集。

LSTM 模型結構與參數設置

?

?

選定模型訓練的 epoch(總的訓練輪數)為 100 和 batch size(每次訓練的樣本數)為 1,并在 LSTM 層的輸出后面加入一個普通的神經網絡全連接層用于輸出結果的降維。

step 3: 結果展示

?

?

上圖藍線為真實值,黃線為預測值。可以看出最終的預測曲線與實際的曲線趨勢情況基本吻合,銷售量從每年的七月開始下滑,10 月會有反彈,且總體的銷量趨勢呈下滑狀態,擬合效果很好,將原始數據的季節性,總體趨勢及周期性都預測出來了。

當分析人員需要細化維度到產品時,如預測產品 ‘LitwareRefrigerator 24.7CuFt X980 Brown’ 2009 年下半年的銷量,分析人員只需要修改 SQL 代碼,就可重獲聚合數據,操作簡單,執行快速。

Kyligence 與 Apache Spark 可優化從數據源到數據分析平臺的整套大數據機器學習生態環境,讓大數據挖掘擺脫數據量的束縛,變得輕松高效。

本文轉載自公眾號 Kyligence。作者:姜昀佳

分享到:0收藏

上一篇:Python 中的多進程與線程 每個數據科學家都需要知道 訓練樣本“喂不飽”,數據標注難破解:醫療AI熱潮背后的“彈藥”難題下一篇:

聲明:該文章版權歸原作者所有,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯系。
您閱讀這篇文章花了0
轉發這篇文章只需要1秒鐘
喜歡這篇 0
評論一下 0
凱派爾知識產權全新業務全面上線
相關文章
評論
試試以這些內容開始評論吧
登錄后發表評論
凱派爾知識產權全新業務全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創服務
歷史搜索 清空

Tel:18514777506

關注微信公眾號

創頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
亚洲欧美怡红院| 一区二区欧美精品| 亚洲欧美怡红院| 天堂va蜜桃一区二区三区漫画版| 99精品国产99久久久久久白柏| 精一区二区三区| av在线这里只有精品| 日韩午夜中文字幕| 一区二区三区蜜桃网| 国产成人精品三级| 日韩欧美的一区| 亚洲成av人片在线观看| 99精品久久久久久| 国产亚洲美州欧州综合国| 日韩av一区二区三区| 在线精品视频免费观看| 国产精品美女久久久久久久| 精品写真视频在线观看| 欧美精品在线观看一区二区| 亚洲激情自拍视频| 成人97人人超碰人人99| 欧美极品美女视频| 国产精品一区专区| 久久日韩粉嫩一区二区三区| 美女看a上一区| 国产一区二区在线观看视频| 欧美军同video69gay| 欧美精品一区二区在线播放| 日韩一区二区三区视频| 亚洲图片欧美一区| 91福利在线观看| 日韩理论片中文av| 成人动漫视频在线| 国产性做久久久久久| 韩国一区二区在线观看| 日韩欧美国产不卡| 久久国产精品露脸对白| 91精品国产综合久久蜜臀| 亚洲一级电影视频| 色天使色偷偷av一区二区| 亚洲天堂网中文字| 91丨porny丨国产入口| 中文字幕一区二区三区四区| 不卡的电视剧免费网站有什么| 欧洲一区二区三区在线| 中文字幕一区二区三区在线不卡| 午夜av一区二区三区| 日本韩国欧美三级| 夜夜精品视频一区二区 | 一区二区三区四区精品在线视频| 五月天一区二区三区| 在线精品视频免费播放| 亚洲国产乱码最新视频 | 国产一区二区伦理| 26uuu精品一区二区三区四区在线| 1000部国产精品成人观看| 成年人网站91| 亚洲乱码精品一二三四区日韩在线 | 欧美精品第一页| 午夜精品免费在线| 在线综合+亚洲+欧美中文字幕| 欧美高清在线一区二区| 岛国精品在线播放| 亚洲欧洲国产专区| 色老头久久综合| 亚洲精品老司机| 欧美日韩精品电影| 日本不卡高清视频| 欧美xxxx在线观看| 国产一区二区按摩在线观看| 欧美国产欧美综合| 99re66热这里只有精品3直播 | 国产欧美日韩综合精品一区二区| 亚洲h精品动漫在线观看| 51午夜精品国产| 精品在线你懂的| 中文字幕国产一区| 日本高清视频一区二区| 日本欧美一区二区在线观看| 久久久久久久综合日本| 色综合天天综合狠狠| 香蕉久久一区二区不卡无毒影院| 色婷婷亚洲一区二区三区| 一区二区三区91| 欧美成人一级视频| 99视频一区二区| 丝袜诱惑亚洲看片| 久久综合九色综合欧美就去吻| 另类小说综合欧美亚洲| 国产精品少妇自拍| 欧美中文字幕一区| 久久电影网电视剧免费观看| 中文字幕在线播放不卡一区| 69堂国产成人免费视频| 国产乱子伦视频一区二区三区 | 欧美午夜一区二区| 免费在线观看视频一区| 国产精品美女久久久久aⅴ| 欧美日韩性生活| 国内一区二区在线| 尤物在线观看一区| 久久综合色播五月| 欧美在线观看视频一区二区三区| 亚洲女子a中天字幕| 日韩三级伦理片妻子的秘密按摩| 亚洲超碰精品一区二区| 国产日韩欧美不卡在线| 在线观看av一区| 国产精品亚洲成人| 五月激情综合色| 国产精品不卡视频| 精品欧美乱码久久久久久| 在线免费不卡视频| 国产成人亚洲精品青草天美| 婷婷丁香激情综合| 亚洲视频在线一区二区| 欧美成人精品福利| 精品视频999| 99久久国产综合精品麻豆| 久久er99精品| 亚洲午夜久久久久中文字幕久| 欧美日韩一区二区电影| 成人一区二区三区视频 | 国产超碰在线一区| 天天影视色香欲综合网老头| 欧美高清在线视频| 欧美电影免费观看高清完整版| 国内精品久久久久影院薰衣草| www国产亚洲精品久久麻豆| 欧美性一区二区| 不卡电影一区二区三区| 国产一区二区三区美女| 水野朝阳av一区二区三区| 最新欧美精品一区二区三区| 精品成人在线观看| 欧美色男人天堂| 91热门视频在线观看| 国产成人av网站| 精品一区二区在线观看| 日韩电影在线一区二区三区| 亚洲午夜在线观看视频在线| 亚洲日本免费电影| 国产精品区一区二区三| 国产亚洲1区2区3区| 精品盗摄一区二区三区| 日韩欧美国产三级电影视频| 宅男噜噜噜66一区二区66| 欧美日韩一区在线观看| 在线观看不卡视频| 91成人看片片| 色婷婷av一区二区三区大白胸| 美国三级日本三级久久99| 亚洲成av人综合在线观看| 玉足女爽爽91| 亚洲精品亚洲人成人网在线播放| 日韩一区二区在线免费观看| 欧美日韩一区不卡| 欧美丝袜自拍制服另类| 色婷婷综合久久久中文字幕| 99热精品一区二区| 成人av资源在线| thepron国产精品| caoporn国产精品| av一本久道久久综合久久鬼色| 久久精品国内一区二区三区| 日本午夜一区二区| 免费在线成人网| 男女性色大片免费观看一区二区| 国产精品欧美一区二区三区| 国产欧美日韩视频在线观看| 国产午夜亚洲精品午夜鲁丝片| 欧美三级中文字幕在线观看| 在线观看免费一区| 欧美日韩久久一区| 欧美日韩国产小视频在线观看| 懂色中文一区二区在线播放| 国产.欧美.日韩| 不卡视频在线观看| 日本国产一区二区| 欧美日韩一区二区三区高清| 欧美另类z0zxhd电影| 欧美日韩国产123区| 777久久久精品| 日韩女优毛片在线| 久久精品一级爱片| 亚洲欧洲在线观看av| 一区二区三区视频在线观看| 亚洲成av人影院| 久久精品理论片| 大胆亚洲人体视频| 一本色道a无线码一区v| 色吧成人激情小说| 欧美精品一卡二卡| 精品va天堂亚洲国产| 欧美国产国产综合| 一区二区国产视频| 日韩电影在线观看电影| 国产在线视视频有精品| 成人动漫中文字幕| 欧美性色综合网|