今天,在荷蘭阿姆斯特丹舉行的 Spark+AI 歐洲峰會上,DataBricks 和 Linux 基金會聯合宣布,開源項目 Delta Lake 正式成為 Linux 基金會的托管項目。
?
?
作者:蔡芳芳 來源:InfoQ
Delta Lake 由 Databricks 在今年年初開源,該項目旨在與社區共同打造一個開放標準,以管理數據湖中的大量數據,并不斷提高數據湖的可靠性、質量和性能。成為 Linux 基金會項目后,Delta Lake 原來采用的 Apache 2.0 開源許可將保持不變。目前 Delta Lake 已經被成千上萬的組織采用,包括 Intel、阿里巴巴、Booz Allen Hamilton 都是其開源生態一員。為了進一步推動 Delta Lake 開原生態的發展,讓更多開發者和企業采用 Delta Lake 并參與貢獻項目代碼,Databricks 決定讓 Delta Lake 成為 Linux 基金會的托管項目并使用開放式的治理模式。
如今,每個公司都希望通過數據科學、機器學習和分析等手段從數據中獲得更多價值,但由于數據湖中數據可靠性較差,從數據中獲取價值的難度極大。Delta Lake 通過為 Apache Spark 和其他大數據引擎提供可伸縮的 ACID 事務,讓用戶可以基于 HDFS 和云存儲構建可靠的數據湖。自 2017 年 10 月推出以來,Delta Lake 已被四千多家組織采用,每月處理超過 2 exabytes 的數據。
“將 Delta Lake 引入 Linux 基金會這樣的中立組織,將有助于開源社區更好地基于該項目開發解決大數據(本地和云端)存儲和處理問題的技術,”Linux 基金會戰略計劃副總裁 Michael Dolan 說,“ Linux 基金會致力于幫助開源社區采用開放治理模式來實現廣泛的行業貢獻和共識建立,這將有助于改善當前數據存儲和可靠性相關技術。”
Databricks 的聯合創始人也是開源項目 Apache Spark 的創始成員,如今 Spark 早已成為大規模數據處理的事實標準。Databricks 的首席執行官兼聯合創始人 Ali Ghodsi 對 Delta Lake 項目再次經歷這一旅程感到興奮。“我們的團隊一直致力于創建開源項目并為之做出貢獻,因為我們知道這是最快、最好的創新方式。為了解決不同組織在數據方面的挑戰,我們希望保證 Delta Lake 項目真正徹底地開源。借助 Linux 基金會社區的力量和貢獻,我們相信 Delta Lake 很快就會成為數據湖中數據存儲的標準。”
盡管 Delta Lake 最初是為了與 Apache Spark 配合使用而設計的,但如今 Delta Lake 已經構建了一個更加開放且蓬勃發展的社區,且增加了對其他開源數據系統的支持。
阿里巴巴大數據 / 人工智能副總裁賈揚清表示:
“作為主要的云計算提供商,阿里巴巴一直是各種開源項目(尤其在大數據和 AI 領域)的領導者、貢獻者、使用者和支持者。我們一直在與 Databricks 合作開發 Delta Lake 的原生 Hive 連接器,我們非常高興看到該項目加入 Linux 基金會。我們將繼續推動 Delta Lake 開源社區的發展并為之做出貢獻。”
英特爾架構、圖形和軟件副總裁兼機器學習性能總經理李偉(Wei Li)表示:
“英特爾與 Databricks 已經合作了非常長時間,我們共同致力于通過創新的數據分析和 AI 解決方案推動 Apache Spark 技術的發展,并幫助企業做好準備。Databricks 貢獻給 Linux 基金會的 Delta Lake 項目是一項相當重要的開源存儲技術,可以幫助采用者提高數據湖的可靠性。我們期待加入 Delta Lake 項目,并繼續與 Databricks 和 Apache 社區進行合作。”








