china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關(guān)注微信公眾號
移動端
創(chuàng)頭條企服版APP

原創(chuàng)干貨 | 史上最全的大數(shù)據(jù)學(xué)習(xí)資源(Awesome Big Data)

5562

原標(biāo)題:原創(chuàng)干貨 | 史上最全的大數(shù)據(jù)學(xué)習(xí)資源(Awesome Big Data)

很多人在學(xué)習(xí)大數(shù)據(jù)的時候比較迷茫,不知從何學(xué)起,也不能夠比較系統(tǒng)、全面的了解大數(shù)據(jù)框架。為此,過往記憶花了一個周末的時間把 Awesome Big Data (https://github.com/onurakpolat/awesome-bigdata)里近 600 個大數(shù)據(jù)相關(guān)的調(diào)度、存儲、計算、數(shù)據(jù)庫以及可視化等介紹全部翻譯了一遍,供大家查漏補(bǔ)缺,全面學(xué)習(xí),強(qiáng)烈建議收藏。更多大數(shù)據(jù)技術(shù)知識學(xué)習(xí),請持續(xù)關(guān)注【過往記憶大數(shù)據(jù)】微信公眾號。

關(guān)系型數(shù)據(jù)庫管理系統(tǒng)

  • MySQL 世界上最流行的開源數(shù)據(jù)庫。
  • PostgreSQL 世界上最先進(jìn)的開源數(shù)據(jù)庫。
  • Oracle Database - 對象關(guān)系數(shù)據(jù)庫管理系統(tǒng)。
  • Teradata - 高性能 MPP 數(shù)據(jù)倉庫平臺。

框架

  • Bistro - 用于批處理和流分析的通用數(shù)據(jù)處理引擎。它基于一種新的數(shù)據(jù)模型,該模型通過函數(shù)來表示數(shù)據(jù),并通過列操作來處理數(shù)據(jù),而不僅僅使用 MapReduce 或 SQL 等傳統(tǒng)方法來設(shè)置操作。
  • IBM Streams - 分布式處理和實時分析平臺。可以和大數(shù)據(jù)生態(tài)系統(tǒng)中的許多流行技術(shù) (Kafka、HDFS、Spark等) 集成
  • Apache Hadoop -分布式處理框架。集成了 MapReduce(并行處理)、YARN(作業(yè)調(diào)度)和HDFS(分布式文件系統(tǒng))。
  • Tigon - 高吞吐的實時流處理框架。
  • Pachyderm - Pachyderm 是一個基于 Docker 和 Kubernetes 的數(shù)據(jù)存儲平臺,可以用在重復(fù)的數(shù)據(jù)處理和分析場景。
  • Polyaxon - 一個可復(fù)制、可擴(kuò)展的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)平臺。

分布式編程

  • AddThis Hydra - 分布式數(shù)據(jù)處理和存儲系統(tǒng),最初由 AddThis 開發(fā)。
  • AMPLab SIMR - 在 Hadoop MapReduce v1 上運行 Spark。
  • Apache APEX - 用于大數(shù)據(jù)流和批處理的統(tǒng)一企業(yè)平臺。
  • Apache Beam - 用于定義和執(zhí)行數(shù)據(jù)處理工作流的統(tǒng)一模型和一組特定于語言的sdk。
  • Apache Crunch - 一個簡單的Java API,用于處理 Join 和數(shù)據(jù)聚合之類的任務(wù),這些任務(wù)在普通 MapReduce 上實現(xiàn)起來很繁瑣。
  • Apache DataFu - 由 LinkedIn 為 Hadoop 和 Pig 開發(fā)的用戶定義函數(shù)的集合。
  • Apache Flink - 分布式處理引擎框架,用于在無界和有界數(shù)據(jù)流上進(jìn)行有狀態(tài)計算。
  • Apache Gearpump -基于 Akka 的實時大數(shù)據(jù)流引擎。
  • Apache Gora - 內(nèi)存數(shù)據(jù)模型和持久性框架。
  • Apache Hama - BSP(Bulk Synchronous Parallel)計算框架。
  • Apache MapReduce -在集群上使用并行分布式算法處理大型數(shù)據(jù)集的編程模型。
  • Apache Pig - 用于表達(dá) Hadoop 數(shù)據(jù)分析程序的高級語言。
  • Apache REEF - 用來簡化和統(tǒng)一低層大數(shù)據(jù)系統(tǒng)的保留性評估執(zhí)行框架
  • Apache S4 - 一個常規(guī)用途的、分布式的、可伸縮的、容錯的、可插入式的平臺,主要用于處理連續(xù)的數(shù)據(jù)流
  • Apache Spark - 快速、通用的大規(guī)模數(shù)據(jù)處理引擎
  • Apache Spark Streaming - 實時流處理引擎,屬于 Spark 的一部分.
  • Apache Storm - Twitter 開發(fā)的,可在 YARN 上進(jìn)行流處理的框架。
  • Apache Samza -基于 Kafka 和 YARN 的流處理的框架
  • Apache Tez - 基于 YARN 的,可執(zhí)行復(fù)雜 DAG (有向無環(huán)圖)任務(wù)的應(yīng)用程序框架。
  • Apache Twill - YARN 上的抽象,減少了開發(fā)分布式應(yīng)用程序的復(fù)雜性。
  • Baidu Bigflow - 一個允許編寫分布式計算程序的接口,它提供了許多簡單、靈活、強(qiáng)大的 API 來輕松處理任何規(guī)模的數(shù)據(jù)。
  • Cascalog - 數(shù)據(jù)處理和查詢庫。
  • Cheetah - MapReduce 之上的高性能,用戶自定義數(shù)據(jù)倉庫。
  • Concurrent Cascading - Hadoop 上的數(shù)據(jù)管理/分析框架。
  • Damballa Parkour - 為 Clojure 開發(fā)的 MapReduce 庫。
  • Datasalt Pangool - 可替代 MapReduce 范式.
  • DataTorrent StrAM -實時計算引擎,旨在以一種盡可能暢通的方式支持分布式、異步、實時的內(nèi)存大數(shù)據(jù)計算,同時最小化開銷和對性能的影響。
  • Facebook Corona - Hadoop 的增強(qiáng),可以消除單點故障。
  • Facebook Peregrine - Map Reduce 框架.
  • Facebook Scuba - 分布式內(nèi)存數(shù)據(jù)存儲。
  • Google Dataflow - 創(chuàng)建數(shù)據(jù)管道來幫助我們攝取、轉(zhuǎn)換和分析數(shù)據(jù)。
  • Google MapReduce - map reduce 框架.
  • Google MillWheel - 容錯流處理框架。
  • IBM Streams - 用于分布式處理和實時分析的平臺。 提供開箱即用的高級分析工具包,如地理空間,時間序列等。
  • JAQL - 聲明式編程語言,用于處理結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。
  • Kite - 一組庫、工具、示例和文檔,重點在于簡化在 Hadoop 生態(tài)系統(tǒng)之上構(gòu)建系統(tǒng)的過程。
  • Metamarkets Druid - 用于實時分析大型數(shù)據(jù)集的框架。
  • Netflix PigPen - 是 Clojure 語音的 Map-Reduce,可以編譯到 Apache Pig 或者 Cascading 中
  • Nokia Disco - 諾基亞開發(fā)的 MapReduce 框架。
  • Onyx - 云的分布式計算。
  • Pinterest Pinlater - 異步作業(yè)執(zhí)行系統(tǒng)。
  • Pydoop - 用 Python 編寫,并采用 MapReduce 和 HDFS 技術(shù)對 Hadoop 進(jìn)行擴(kuò)展的 API。
  • Ray - 用于構(gòu)建和運行分布式應(yīng)用程序的快速而簡單的框架。
  • Rackerlabs Blueflood - 多租戶分布式度量處理系統(tǒng)
  • Skale - NodeJS 上的高性能分布式數(shù)據(jù)處理框架。
  • Stratosphere - 通用集群計算框架。
  • Streamdrill - streamdrill 在計算不同時間窗口上的事件流活動非常有用,并找出最活躍的時間窗口。
  • streamsx.topology - 用于在 Java,Python 或 Scala 中構(gòu)建 IBM Streams 應(yīng)用程序的庫。
  • Tuktu - 易于使用的批處理和流式計算平臺,可以使用 Scala,Akka 和 Play 構(gòu)建!
  • Twitter Heron - 由 Twitter 開發(fā)的一個實時、分布式、容錯的流處理引擎,主要用于代替 Storm。
  • Twitter Scalding - 用于 Map Reduce 作業(yè)的 Scala 庫,基于 Cascading 構(gòu)建。
  • Twitter Summingbird - Summingbird 是一個類庫,它允許我們編寫看起來像原生 Scala 或 Java 集合轉(zhuǎn)換的 MapReduce 程序,并在許多著名的分布式 MapReduce 平臺上執(zhí)行,包括 Storm 和 Scalding,由 Twitter 開發(fā)。
  • Twitter TSAR - Twitter 開發(fā)的時間序列聚合器
  • Wallaroo - 超快彈性數(shù)據(jù)處理引擎,可以使有狀態(tài)、分析、流處理和事件驅(qū)動的 AI 應(yīng)用程序能夠快速投入生產(chǎn),而無需考慮規(guī)模。它為開發(fā)人員提供了幾種語言的 api 來實現(xiàn)他們的自定義業(yè)務(wù)邏輯。

分布式文件系統(tǒng)

  • Ambry - 分布式對象存儲,支持存儲數(shù)萬億個小的不可變對象或者數(shù)十億個大對象。
  • Apache HDFS - 提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問的分布式文件系統(tǒng)。
  • Apache Kudu - Hadoop 的存儲層可實現(xiàn)對數(shù)據(jù)的快速分析。
  • BeeGFS - 之前稱為 FhGFS,是一種并行分布式文件系統(tǒng)。
  • Ceph Filesystem - 一個支持POSIX接口的文件系統(tǒng)
  • Disco DDFS - 分布式文件系統(tǒng)。
  • Facebook Haystack - 對象存儲系統(tǒng)。
  • Google Colossus - 分布式文件系統(tǒng) (GFS2).
  • Google GFS - 分布式文件系統(tǒng)。
  • Google Megastore - 可擴(kuò)展、高可用的存儲。
  • GridGain - GGFS, Hadoop 兼容的內(nèi)存文件系統(tǒng)。
  • Lustre file system - 高性能分布式文件系統(tǒng)。
  • Microsoft Azure Data Lake Store - Azure 上兼容 HDFS 的存儲
  • Quantcast File System QFS - 開源分布式文件系統(tǒng)。
  • Red Hat GlusterFS - 橫向擴(kuò)展網(wǎng)絡(luò)附加的存儲文件系統(tǒng)。
  • Seaweed-FS -簡單且高度可伸縮的分布式文件系統(tǒng)。
  • Alluxio - 開源的基于內(nèi)存的分布式存儲系統(tǒng)。
  • Tahoe-LAFS - 去中心化的云存儲系統(tǒng)。
  • Baidu File System - 分布式文件系統(tǒng)。

分布式索引

  • Pilosa 開源的分布式位圖索引,極大地加速了跨多個大規(guī)模數(shù)據(jù)集的查詢。

文檔數(shù)據(jù)模型

  • Actian Versant - 面向?qū)ο蟮纳虡I(yè)數(shù)據(jù)庫管理系統(tǒng)。
  • Crate Data - 是一個開源的大規(guī)模可擴(kuò)展數(shù)據(jù)存儲,它不需要任何管理。
  • Facebook Apollo - Facebook 的類似于 Paxos 的 NoSQL 數(shù)據(jù)庫。
  • jumboDB - 基于 Hadoop 的面向文檔的數(shù)據(jù)存儲。
  • LinkedIn Espresso - 可水平擴(kuò)展的面向文檔 NoSQL 數(shù)據(jù)存儲。
  • MarkLogic - 模式無關(guān)的企業(yè) NoSQL 數(shù)據(jù)庫技術(shù)。
  • Microsoft Azure DocumentDB - NoSQL 云數(shù)據(jù)庫服務(wù),支持 MongoDB 協(xié)議
  • MongoDB - 面向文檔的數(shù)據(jù)庫系統(tǒng)。
  • RavenDB - 支持事務(wù)的開源文檔數(shù)據(jù)庫。
  • RethinkDB - 支持表 join 和 group by 等查詢的文檔數(shù)據(jù)庫。

Key Map 數(shù)據(jù)模型

注意: 業(yè)界存在一些術(shù)語混淆,存在兩種不同的東西被稱為“列式數(shù)據(jù)庫”。這里列出的一些是圍繞“鍵 - 映射”數(shù)據(jù)模型構(gòu)建的分布式持久性數(shù)據(jù)庫:所有數(shù)據(jù)都有一個(可能是組合的)鍵,鍵值對的映射與之關(guān)聯(lián)。在某些系統(tǒng)中,多個這樣的值映射可以與一個鍵關(guān)聯(lián),這些映射稱為“列族”(值映射鍵稱為“列”)。

另一種也稱為“列式數(shù)據(jù)庫”的技術(shù),特點是它在磁盤或內(nèi)存中如何存儲數(shù)據(jù)。這些系統(tǒng)將所有行的相同列值數(shù)據(jù)存儲在一起。因此,需要做更多的工作來獲得給定鍵的所有列,但是需要更少的工作來獲得給定列的所有值。

前一種在這里稱為“鍵映射數(shù)據(jù)模型”。這些和 Key-value Data Model 存儲之間的界限相當(dāng)模糊。

后者更多地是關(guān)于存儲格式而不是數(shù)據(jù)模型,這些數(shù)據(jù)庫我們把它歸到 Columnar Databases 里面去了。

你可以到 Prof. Daniel Abadi 的博文: 了解更多關(guān)于如何區(qū)分這兩存儲系統(tǒng)的討論。.

  • Apache Accumulo - 構(gòu)建在 Hadoop 之上的分布式鍵值存儲系統(tǒng)。
  • Apache Cassandra - 受 BigTable 啟發(fā)的、面向列的分布式數(shù)據(jù)存儲。
  • Apache HBase - 受 BigTable 啟發(fā)的、面向列的分布式數(shù)據(jù)存儲。
  • Baidu Tera - 受 BigTable 啟發(fā)的一種大型分布式表格存儲系統(tǒng),具有高性能、可伸縮等存儲特點,最初的設(shè)計是為了管理萬億量級的超鏈和網(wǎng)頁信息。
  • Facebook HydraBase - 由 Facebook 開發(fā)的 HBase 演化版本。
  • Google BigTable - 面向列的分布式數(shù)據(jù)存儲。
  • Google Cloud Datastore - 一個完全托管的無模式數(shù)據(jù)庫,用于在 BigTable 上存儲非關(guān)系數(shù)據(jù)。
  • Hypertable - 受 BigTable 啟發(fā)的、面向列的分布式數(shù)據(jù)存儲。
  • InfiniDB - 通過MySQL接口訪問,并使用大規(guī)模并行處理來并行化查詢。
  • Tephra - 使 HBase 支持事務(wù)
  • Twitter Manhattan - Twitter 開發(fā)的實時、多租戶分布式數(shù)據(jù)庫。
  • ScyllaDB - 使用 C++ 編寫的面向列的分布式數(shù)據(jù)存儲,完全兼容 Apache Cassandra。

Key-value 數(shù)據(jù)模型

  • Aerospike - 一個分布式,高可用的 K-V 類型的 NOSQL 數(shù)據(jù)庫。提供類似傳統(tǒng)數(shù)據(jù)庫的ACID操作。
  • Amazon DynamoDB - 分布式 key/value 存儲, Dynamo 論文的實現(xiàn)。
  • Badger - 一個快速、簡單、高效和持久的鍵值存儲,是用 Go 編寫。
  • Bolt - 可在 Go 語言中使用的嵌入式鍵值數(shù)據(jù)庫.
  • BTDB - .Net 中的 Key Value 數(shù)據(jù)庫,包含 Object DB Layer, RPC, dynamic IL 等等。
  • BuntDB - Go 語言的一個快速,可嵌入,基于內(nèi)存的鍵/值數(shù)據(jù)庫,支持自定義索引和地理空間。
  • Edis - 協(xié)議兼容 Redis 的數(shù)據(jù)庫,可替代 Redis。
  • ElephantDB - 專門用于從 Hadoop 導(dǎo)出數(shù)據(jù)的分布式數(shù)據(jù)庫。
  • EventStore - 分布式時間序列數(shù)據(jù)庫。
  • GridDB - 一款高度可擴(kuò)展的 NoSQL 數(shù)據(jù)庫,非常適用于物聯(lián)網(wǎng)和大數(shù)據(jù)領(lǐng)域,還具有高可靠性和高性能這些特性。
  • HyperDex - 可擴(kuò)展的下一代鍵值和文檔存儲,具有多種功能,包括一致性,容錯性和高性能。
  • Ignite - 分布式內(nèi)存網(wǎng)格數(shù)據(jù)庫,具有可持久化,分布式事務(wù),分布式計算等特點,此外還支持豐富的鍵值存儲以及SQL語法。
  • LinkedIn Krati - 一個簡單的持久化數(shù)據(jù)存儲,具有非常低的延遲和高吞吐量。
  • Linkedin Voldemort - 分布式 key/value 存儲系統(tǒng)。
  • Oracle NoSQL Database - Oracle 公司開發(fā)的分布式 key/value 存儲系統(tǒng)。.
  • Redis -一個開源(BSD許可)的,內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)存儲系統(tǒng),它可以用作數(shù)據(jù)庫、緩存和消息中間件。
  • Riak - 去中心化的數(shù)據(jù)庫存儲。
  • Storehaus -Twitter 開發(fā)的用于異步 key/value 存儲的類庫。
  • SummitDB - 基于內(nèi)存的 NoSQL 鍵/值數(shù)據(jù)庫,具有磁盤持久性,并支持 Raft 一致性算法。
  • Tarantool - 一個高效的 NoSQL 數(shù)據(jù)庫和一個 Lua 應(yīng)用服務(wù)器。
  • TiKV - 一個基于 Rust 的分布式鍵值數(shù)據(jù)庫,并受谷歌 Spanner 和 HBase 的啟發(fā)。
  • Tile38 - 具有空間索引和實時地理圍欄的地理位置數(shù)據(jù)庫。支持各種對象類型,包括緯度/經(jīng)度點,邊界框,XYZ切片,Geohashes和GeoJSON
  • TreodeDB - key-value 存儲,支持?jǐn)?shù)據(jù)副本、分片以及提供原子多行寫。

圖數(shù)據(jù)模型

  • AgensGraph - 基于 PostgreSQL 的新一代多模型圖數(shù)據(jù)庫。
  • Apache Giraph - 一個可伸縮的分布式迭代圖處理系統(tǒng), 基于 Hadoop 平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。
  • Apache Spark Bagel - Bagel 是谷歌 Pregel 圖處理框架的 Spark 實現(xiàn),支持基本的圖形計算、組合器(combiners)和聚合器(aggregators)。目前已經(jīng)被 GraphX 替代,在 Spark 2.0.0 版本已經(jīng)被移除。
  • ArangoDB - 多模型分布式數(shù)據(jù)庫。
  • DGraph - 一個可伸縮的、分布式的、低延遲的、高吞吐量的圖數(shù)據(jù)庫,旨在提供谷歌生產(chǎn)級別的規(guī)模和吞吐量,具有足夠低的延遲,可以在 TB 級的結(jié)構(gòu)化數(shù)據(jù)上為實時用戶查詢提供服務(wù)。
  • EliasDB - 一個輕量級的基于圖的數(shù)據(jù)庫,不需要任何第三方庫。
  • Facebook TAO - TAO 是 facebook 廣泛使用的分布式數(shù)據(jù)存儲,用于存儲和服務(wù)社交圖。
  • GCHQ Gaffer - Gaffer 是 GCHQ(英國政府通訊總部)于2015年12月14日在 GitHub 上公布的第一個開源項目,Gaffer 是個大規(guī)模圖形數(shù)據(jù)庫,可以方便存儲大規(guī)模圖的框架,節(jié)點和邊界有數(shù)據(jù)統(tǒng)計,比如計數(shù),直方圖和草圖。這些統(tǒng)計數(shù)據(jù)是時間窗口的節(jié)點和邊界屬性,可以根據(jù)時間動態(tài)更新。
  • Google Cayley - 開源的圖數(shù)據(jù)庫。
  • Google Pregel - 圖處理框架。
  • GraphLab PowerGraph - 包含 C++ 實現(xiàn)的 GraphLab API以及一組基于GraphLab API 構(gòu)建的高性能機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘工具包。
  • GraphX - 一個分布式圖處理框架,它是基于 Spark 平臺提供對圖計算和圖挖掘簡潔易用的而豐富的接口,極大的方便了對分布式圖處理的需求。
  • Gremlin - 圖遍歷語言。
  • Infovore - 一個 map/reduce 框架,用來處理大量的 RDF 數(shù)據(jù)集,注入 Freebase 和 DBpedia,基于 Hadoop 構(gòu)建。
  • Intel GraphBuilder - 基于 Hadoop 構(gòu)造的大型圖工具。
  • JanusGraph - 開源分布式圖形數(shù)據(jù)庫,后端存儲可以選擇多種組件包括 Bigtable、HBase、Cassandra等,同時索引后端也可以選擇很多種,包括 Elasticsearch、Solr、Lucene 等。
  • MapGraph - 一個高級的 API 用于快速開發(fā)基于 GPU 的高性能圖形分析應(yīng)用。
  • Microsoft Graph Engine - 一個基于內(nèi)存的分布式大規(guī)模圖數(shù)據(jù)處理引擎,能夠幫助用戶更方便地構(gòu)建實時查詢應(yīng)用和高吞吐量離線分析平臺。在此之前,它在學(xué)術(shù)界更廣為人之的名稱是 Trinity。
  • Neo4j - 一個高性能的 NOSQL圖數(shù)據(jù)庫,完全由 Java 實現(xiàn)。
  • OrientDB - 文檔圖形數(shù)據(jù)庫。
  • Phoebus - 大型圖處理框架。
  • Titan - 建立在 Cassandra 之上的分布式圖數(shù)據(jù)庫。
  • Twitter FlockDB - 分布式圖數(shù)據(jù)庫。
  • NodeXL - Microsoft? Excel? 2007, 2010, 2013 and 2016 免費開源的模板,可以很容易的探索網(wǎng)絡(luò)圖。

列式數(shù)據(jù)庫

注意 請讀一下 Key-Map Data Model 章節(jié)的說明。

  • Columnar Storage - 解釋什么是列式存儲,以及我們什么時候需要它。
  • Actian Vector - 面向列的分析數(shù)據(jù)庫。
  • C-Store - 面向列的 DBMS.
  • ClickHouse - 一個開源的列式數(shù)據(jù)庫(DBMS),主要用于在線分析處理查詢(OLAP)。
  • EventQL - 為大規(guī)模事件收集和分析而構(gòu)建的分布式、面向列的數(shù)據(jù)庫。
  • MonetDB - 列式存儲數(shù)據(jù)庫。
  • Parquet - 靈感來自于2010年 Google 發(fā)表的 Dremel 論文,是一種列式存儲格式,與語言、平臺無關(guān),并且不需要和任何一種數(shù)據(jù)處理框架綁定。
  • Pivotal Greenplum - 為特定目的而構(gòu)建的專用分析數(shù)據(jù)倉庫,它提供了一個列式存儲引擎和一個傳統(tǒng)的基于行的引擎。
  • Vertica - 設(shè)計用于管理大量快速增長的數(shù)據(jù),提供非常快的查詢性能。
  • SQream DB - 以色列大數(shù)據(jù)公司開發(fā)的跑在 GPU 上的大數(shù)據(jù)數(shù)據(jù)庫,設(shè)計用于分析和數(shù)據(jù)倉庫,使用 ANSI-92 SQL,適用于10TB到1PB的數(shù)據(jù)集。
  • Google BigQuery - Google 推出的一項 Web 服務(wù),該服務(wù)讓開發(fā)者可以使用 Google 的架構(gòu)來運行 SQL 語句對超級大的數(shù)據(jù)庫進(jìn)行操作。
  • Amazon Redshift - 一個支持 SQL 查詢的、快速、可擴(kuò)展的列式存儲數(shù)據(jù)庫,它支持 PB 級的數(shù)量查詢,是適用于企業(yè)級的數(shù)據(jù)倉庫。
  • IndexR - 一個開源的大數(shù)據(jù)存儲格式,于 2017 年 1 月初正式開源,旨在通過添加索引、優(yōu)化編碼方式、提高 IO 效率等各種優(yōu)化方式來提高計算層和存儲層的數(shù)據(jù)交換效率,從而提升整體性能。
  • LocustDB - 一個大規(guī)模并行且高性能的分析數(shù)據(jù)庫 (analytics database),可快速處理你的所有數(shù)據(jù),目前處于實驗性階段。

NewSQL 數(shù)據(jù)庫

  • Actian Ingres - 商業(yè)支持,開源 SQL 關(guān)系數(shù)據(jù)庫管理系統(tǒng)。
  • ActorDB - 分布式的 SQL 數(shù)據(jù)庫,可實現(xiàn)可伸縮的 K/V 存儲系統(tǒng)。ActorDB 基于 Actor 計算模型,與傳統(tǒng)的集中式數(shù)據(jù)庫不同,ActorDB 由任意數(shù)量的被成為 actor 的獨立和并發(fā) SQL 數(shù)據(jù)庫組成。
  • Amazon RedShift -基于 PostgreSQL 的數(shù)據(jù)倉庫服務(wù)。
  • BayesDB - 一個貝葉斯數(shù)據(jù)庫,內(nèi)建貝葉斯查詢語言 BQL,用戶無需統(tǒng)計方面知識即可解決一些基本的科學(xué)數(shù)據(jù)問題
  • Bedrock - 構(gòu)建在 SQLite 之上的簡單、模塊化、網(wǎng)絡(luò)化、分布式事務(wù)層。
  • CitusDB - 通過分片和副本擴(kuò)展 PostgreSQL。
  • Cockroach - 可伸縮、地理復(fù)制、事務(wù)性數(shù)據(jù)存儲。
  • Comdb2 - 一個基于樂觀并發(fā)控制技術(shù)的集群 RDBMS。
  • Datomic - 分布式數(shù)據(jù)庫旨在支持可伸縮、靈活和智能的應(yīng)用程序。
  • FoundationDB - 分布式數(shù)據(jù)庫,受 F1 啟發(fā)。
  • Google F1 - 構(gòu)建在 Spanner 之上的分布式 SQL 數(shù)據(jù)庫。
  • Google Spanner - Google的全球級的分布式數(shù)據(jù)庫,具有可擴(kuò)展,多版本,全球分布式、同步復(fù)制等特性。
  • H-Store - 一個實驗性的數(shù)據(jù)庫管理系統(tǒng)。它專為駐線交易處理應(yīng)用程序而設(shè)計。
  • Haeinsa - Haeinsa 是 HBase 可線性擴(kuò)展的多行,多表事務(wù)庫。使用兩階段鎖定和樂觀并發(fā)控制來實現(xiàn)事務(wù)。 事務(wù)的隔離級別是可序列化的。基于 Percolator 實現(xiàn)。
  • HandlerSocket - MySQL/MariaDB 的 NoSQL 插件。
  • InfiniSQL - 無限擴(kuò)展的 RDBMS.
  • Map-D - GPU 內(nèi)存數(shù)據(jù)庫,大數(shù)據(jù)分析可視化平臺.
  • MemSQL - 一款內(nèi)存數(shù)據(jù)庫,它通過將數(shù)據(jù)存在內(nèi)存中,將 SQL 語句預(yù)編譯為 C++ 而獲得極速執(zhí)行效率。
  • NuoDB - 符合 SQL/ACID 的分布式數(shù)據(jù)庫。
  • Oracle TimesTen in-Memory Database - 基于內(nèi)存的關(guān)系數(shù)據(jù)庫管理系統(tǒng),具有持久性和可恢復(fù)性。
  • Pivotal GemFire XD - 低延遲、基于內(nèi)存、分布式 SQL 數(shù)據(jù)存儲。為內(nèi)存表數(shù)據(jù)提供 SQL 接口,可在 HDFS 中持久存儲。
  • SAP HANA - 基于內(nèi)存、面向列、關(guān)系數(shù)據(jù)庫管理系統(tǒng)。
  • SenseiDB - 分布式、實時、半結(jié)構(gòu)化的數(shù)據(jù)庫。
  • Sky - 用于靈活、高性能的行為數(shù)據(jù)分析的數(shù)據(jù)庫。
  • SymmetricDS - 用于文件和數(shù)據(jù)庫同步的開源軟件。
  • TiDB - 一款定位于在線事務(wù)處理/在線分析處理的融合型數(shù)據(jù)庫產(chǎn)品,實現(xiàn)了一鍵水平伸縮,強(qiáng)一致性的多副本數(shù)據(jù)安全,分布式事務(wù),實時 OLAP 等重要特性。受 Google F1 啟發(fā)。
  • VoltDB - 聲稱是最快的內(nèi)存數(shù)據(jù)庫.

時間序列數(shù)據(jù)庫

  • Axibase Time Series Database - 基于 HBase 的時間序列數(shù)據(jù)庫,內(nèi)置可視化、規(guī)則引擎和 SQL 支持。
  • Chronix - 一種時間序列存儲器,用于存儲高度壓縮的時間序列,并支持快速訪問數(shù)據(jù)。
  • Cube - 使用 MongoDB 來存儲時間序列數(shù)據(jù)。
  • Heroic - 基于 Cassandra 和 Elasticsearch 的可擴(kuò)展時間序列數(shù)據(jù)庫。
  • InfluxDB - 分布式時間序列數(shù)據(jù)庫。
  • IronDB - 可擴(kuò)展、通用時間序列數(shù)據(jù)庫。
  • Kairosdb - 和 OpenTSDB 類似,但是構(gòu)建在 Cassandra 之上。
  • M3DB - 一個分布式時間序列數(shù)據(jù)庫,可用于長期存儲實時指標(biāo)。
  • Newts -基于 Apache Cassandra 的時間序列數(shù)據(jù)庫。
  • OpenTSDB -構(gòu)建在 HBase 之上的分布式時間序列數(shù)據(jù)庫。
  • Prometheus - 時間序列數(shù)據(jù)庫和服務(wù)監(jiān)控系統(tǒng)。
  • Beringei - Facebook 的內(nèi)存時間序列數(shù)據(jù)庫。
  • TrailDB - 用于存儲和查詢一系列事件的有效工具。
  • Druid MetaMarket 公司研發(fā),專為海量數(shù)據(jù)集上的做高性能 OLAP (OnLine Analysis Processing)而設(shè)計的數(shù)據(jù)存儲和分析系統(tǒng)
  • Riak-TS Riak TS 是唯一專為物聯(lián)網(wǎng)和時間序列數(shù)據(jù)優(yōu)化的企業(yè)級 NoSQL 時間序列數(shù)據(jù)庫。
  • Akumuli 一個數(shù)值型時間序列數(shù)據(jù)庫,可以存儲、處理時序列數(shù)據(jù)
  • Rhombus Cassandra的時間序列對象存儲。
  • Dalmatiner DB 快速分布式度量數(shù)據(jù)庫
  • Blueflood 一種用于攝取和處理時間序列數(shù)據(jù)的分布式系統(tǒng)。
  • Timely 是一個時間序列數(shù)據(jù)庫應(yīng)用程序,它提供了基于 Accumulo 和 Grafana 的對時間序列數(shù)據(jù)的安全訪問。
  • SiriDB 具有集群功能的高擴(kuò)展性、健壯性和快速的開源時間序列數(shù)據(jù)庫。
  • Thanos - Thanos 是一組組件,可以使用多個 Prometheus 部署創(chuàng)建具有無限存儲容量的高可用度量系統(tǒng)。
  • VictoriaMetrics - 與 Prometheus 兼容的快速,可擴(kuò)展的開源 TSDB,包括單節(jié)點和群集版本。

類 SQL 處理系統(tǒng)

  • Actian SQL for Hadoop - 高性能交互式 SQL,可以利用它訪問 Hadoop 上的數(shù)據(jù)。
  • Apache Drill - 一個低延遲的分布式海量數(shù)據(jù)交互式查詢引擎,使用 ANSI SQL 兼容語法,本質(zhì)上是一個分布式的 MPP 查詢層。目的在于支持更廣泛的數(shù)據(jù)源,數(shù)據(jù)格式,以及查詢語言。受 Google的Dremel 啟發(fā)。
  • Apache HCatalog - Hadoop的表存儲管理工具。
  • Apache Hive - 基于 Hadoop 的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類 SQL 查詢功能.
  • Apache Calcite - 一款開源 SQL 解析工具, 可以將各種 SQL 語句解析成抽象語法術(shù)AST(Abstract Syntax Tree), 之后通過操作 AST 就可以把 SQL 中所要表達(dá)的算法與關(guān)系體現(xiàn)在具體代碼之中。
  • Apache Phoenix - 構(gòu)建在 HBase 之上的關(guān)系型數(shù)據(jù)庫層,可以對 HBase 中的數(shù)據(jù)進(jìn)行低延遲訪問。
  • Aster Database - 類 SQL 分析處理。
  • Cloudera Impala - 實時交互 SQL 大數(shù)據(jù)查詢工具,受 Dremel 啟發(fā)。
  • Concurrent Lingual - Cascading 上的 SQL 查詢語言。
  • Datasalt Splout SQL - 針對大數(shù)據(jù)集的完整 SQL 查詢引擎。
  • Facebook PrestoDB -分布式 SQL 查詢引擎。
  • Google BigQuery - Google 推出的一項 Web 服務(wù),該服務(wù)讓開發(fā)者可以使用 Google 的架構(gòu)來運行 SQL 語句對超級大的數(shù)據(jù)庫進(jìn)行操作,是 Dremel 的實現(xiàn)。
  • PipelineDB - 一個開源的關(guān)系數(shù)據(jù)庫,它可以在實時流數(shù)據(jù)上執(zhí)行 SQL 查詢,并將結(jié)果增量地存儲在表中。
  • Pivotal HDB - Hadoop 上的類 SQL 數(shù)據(jù)倉庫系統(tǒng)。/li>
  • RainstorDB - 用于存儲 PB 級結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)量的數(shù)據(jù)庫。
  • Spark Catalyst - Apache Spark 的查詢優(yōu)化框架。
  • SparkSQL - 使用 Spark 操作結(jié)構(gòu)化的數(shù)據(jù)。
  • Splice Machine - 兼具了 SQL 和 NoSQL 的各自優(yōu)勢,且能對操作型和分析型應(yīng)用進(jìn)行實時處理,具有 ACID 特性。
  • Stinger - 由 Hortonworks 開發(fā)的一個徹底提升 Hive 效率的工具
  • Tajo - Hadoop 之上的分布式數(shù)據(jù)倉庫系統(tǒng)。
  • Trafodion - 由惠普開發(fā)并開源的基于 Hadoop 平臺的事務(wù)數(shù)據(jù)庫引擎。提供了一個基于 Hadoop 平臺的交易型 SQL 引擎,是一個擅長處理交易型負(fù)載的 Hadoop 大數(shù)據(jù)解決方案。

數(shù)據(jù)攝取

  • Amazon Kinesis - 一種在 AWS 上流式處理數(shù)據(jù)的平臺,讓您可以輕松地加載和分析流數(shù)據(jù),同時還可讓您根據(jù)具體需求來構(gòu)建自定義流數(shù)據(jù)應(yīng)用程序。
  • Amazon Web Services Glue - 一項完全托管的提取、轉(zhuǎn)換和加載 (ETL) 服務(wù),讓用戶能夠輕松準(zhǔn)備和加載數(shù)據(jù)進(jìn)行分析。
  • Apache Chukwa - 數(shù)據(jù)采集系統(tǒng)。
  • Apache Flume - 一個分布式的、可靠的、易用的系統(tǒng),可以有效地將來自很多不同源系統(tǒng)的大量日志數(shù)據(jù)收集、匯總或者轉(zhuǎn)移到一個數(shù)據(jù)中心存儲。
  • Apache Kafka - 分布式發(fā)布訂閱消息系統(tǒng)。
  • Apache NiFi - 一個易用、強(qiáng)大、可靠的數(shù)據(jù)處理與分發(fā)系統(tǒng)
  • Apache Sqoop - 是一款開源的工具,主要用于在 Hadoop/Hive 與傳統(tǒng)的數(shù)據(jù)庫(Mysql、Oracle...)間進(jìn)行數(shù)據(jù)的傳遞
  • Cloudera Morphlines - 幫助將 ETL 的數(shù)據(jù)加載到 Solr、HBase 或 Hadoop 中的框架。
  • Embulk - 開源的批量數(shù)據(jù)加載器,幫助在各種數(shù)據(jù)庫、存儲、文件格式和云服務(wù)之間傳輸數(shù)據(jù)。
  • Facebook Scribe - 流日志數(shù)據(jù)聚合器。
  • Fluentd - 用于收集事件和日志的工具。
  • Google Photon - 地理分布式系統(tǒng),用于實時連接多個連續(xù)流動的數(shù)據(jù)流,具有高可伸縮性和低延遲。
  • Heka - 開源流處理系統(tǒng)。
  • HIHO - 用于將不同數(shù)據(jù)源的數(shù)據(jù)和 Hadoop 進(jìn)行連接的框架。
  • Kestrel - 分布式消息隊列系統(tǒng)。
  • LinkedIn Databus - LinkedIn 開源的一個低延遲、可靠的、支持事務(wù)的、保持一致性的數(shù)據(jù)變更抓取系統(tǒng)。
  • LinkedIn Kamikaze - 一種實用工具包,對 document lists 提供一系列的實現(xiàn)。
  • LinkedIn White Elephant - 一個 Hadoop 日志收集器和展示器,它提供了用戶角度的Hadoop集群可視化。
  • Logstash - 一個開源的日志收集管理工具,可以采集來自不同數(shù)據(jù)源的數(shù)據(jù),并對數(shù)據(jù)進(jìn)行處理后輸出到多種輸出源。
  • Netflix Suro - Netflix 開源的一款工具,它能夠在數(shù)據(jù)被發(fā)送到不同的數(shù)據(jù)平臺(如Hadoop、Elasticsearch)之前,收集不同應(yīng)用服務(wù)器上的事件數(shù)據(jù)。
  • Pinterest Secor - 實現(xiàn) Kafka 日志持久性的服務(wù)
  • Linkedin Gobblin -一套分布式數(shù)據(jù)集成框架,旨在簡化大數(shù)據(jù)集成工作當(dāng)中的各類常見任務(wù),具體包括數(shù)據(jù)流與批量生態(tài)系統(tǒng)的提取、復(fù)制、組織與生命周期管理。
  • Skizze - 一種概率數(shù)據(jù)結(jié)構(gòu)服務(wù)和存儲。
  • StreamSets Data Collector - 使用一個簡單的 IDE 來連續(xù)大數(shù)據(jù)攝取基礎(chǔ)設(shè)施。
  • Yahoo Pulsar - 由 Yahoo 開發(fā)并開源的一個企業(yè)級的發(fā)布訂閱消息系統(tǒng)。
  • Alooma - 實時的數(shù)據(jù)管道服務(wù),支持將 MySQL 等數(shù)據(jù)源的數(shù)據(jù)移動到數(shù)據(jù)倉庫中。

服務(wù)編程

  • Akka Toolkit - 基于 Actor 模型,提供了一個用于構(gòu)建可擴(kuò)展的(Scalable)、彈性的(Resilient)、快速響應(yīng)的(Responsive)應(yīng)用程序的平臺。
  • Apache Avro - 數(shù)據(jù)序列化系統(tǒng)。
  • Apache Curator - 為 Apache ZooKeeper 開發(fā)的類庫。
  • Apache Karaf - Apache 旗下的一個開源項目,同時也是一個基于 OSGi 的運行環(huán)境,Karaf 提供了一個輕量級的 OSGi 容器,可以用于部署各種組件,應(yīng)用程序。
  • Apache Thrift - Facebook 開源的跨語言的 RPC 通信框架
  • Apache Zookeeper - 一個分布式應(yīng)用程序協(xié)調(diào)服務(wù)。
  • Google Chubby - 一個分布式鎖服務(wù),Chubby 底層一致性實現(xiàn)就是以 Paxos 為基礎(chǔ)的
  • Hydrosphere Mist - 一個將 Apache Spark 分析任務(wù)和機(jī)器學(xué)習(xí)模型轉(zhuǎn)換為實時、批處理或反應(yīng)性 web 服務(wù)的服務(wù)。
  • Linkedin Norbert - 集群管理系統(tǒng)。
  • Mara - 一個輕量級的自定義ETL框架。
  • OpenMPI - 消息傳遞框架。
  • Serf - 去中心化的服務(wù)發(fā)現(xiàn)和編排解決方案。
  • Spotify Luigi - 用于構(gòu)建批處理作業(yè)的復(fù)雜管道的 Python 包。它處理依賴項解析、工作流管理、可視化、處理故障、命令行集成等等。
  • Spring XD - 用于數(shù)據(jù)攝取、實時分析、批處理和數(shù)據(jù)導(dǎo)出的分布式和可擴(kuò)展系統(tǒng)。
  • Twitter Elephant Bird - 用于處理 lzop 壓縮數(shù)據(jù)的庫。
  • Twitter Finagle - JVM的異步網(wǎng)絡(luò)堆棧。

調(diào)度

  • Apache Airflow - Airbnb 開源的一個用 Python 編寫的工作流管理平臺。
  • Apache Aurora - 長期運行服務(wù)和計劃作業(yè)的 Mesos 框架。
  • Apache Falcon - 數(shù)據(jù)管理框架。
  • Apache Oozie - 工作流作業(yè)調(diào)度器。
  • Azure Data Factory - 可大規(guī)模簡化 ETL 的混合數(shù)據(jù)集成服務(wù)
  • Chronos - 分布式和容錯調(diào)度器。
  • Linkedin Azkaban - 批處理工作流作業(yè)調(diào)度程序。
  • Schedoscope - 用于 Hadoop 作業(yè)的敏捷調(diào)度 Scala DSL。
  • Sparrow - 調(diào)度平臺。

機(jī)器學(xué)習(xí)

  • Azure ML Studio - 基于云的 R、Python 機(jī)器學(xué)習(xí)平臺。
  • brain - Java 中的神經(jīng)網(wǎng)絡(luò)。
  • Cloudera Oryx - 實時大規(guī)模機(jī)器學(xué)習(xí)。
  • Concurrent Pattern - Cascading 上的機(jī)器學(xué)習(xí)框架。
  • convnetjs - Java 中的深入學(xué)習(xí),可以在瀏覽器中訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(或普通神經(jīng)網(wǎng)絡(luò))。
  • DataVec - 一個用于 Java 和 Scala 深度學(xué)習(xí)的矢量化和數(shù)據(jù)預(yù)處理庫。Deeplearning4j生態(tài)系統(tǒng)的一部分。
  • Deeplearning4j - 美國 AI 創(chuàng)業(yè)公司 Skymind 開源并維護(hù)的一個基于 Java/JVM 的深度學(xué)習(xí)框架,可使用CPU或GPU運行。
  • Decider - Ruby中靈活且可擴(kuò)展的機(jī)器學(xué)習(xí)。
  • ENCOG - 支持多種高級算法的機(jī)器學(xué)習(xí)框架,以及支持規(guī)范化和處理數(shù)據(jù)的類。
  • etcML - 在線免費文本分析工具是由美國的斯坦福大學(xué)計算機(jī)教授開發(fā)的基于成熟的文本分析引擎
  • Etsy Conjecture - Scalding 中可擴(kuò)展的機(jī)器學(xué)習(xí)。
  • Feast - 用于管理、發(fā)現(xiàn)和訪問機(jī)器學(xué)習(xí)特性的特性存儲庫。Feast 為模型訓(xùn)練和模型服務(wù)提供了一致的特征數(shù)據(jù)視圖。
  • GraphLab Create - Python 中的機(jī)器學(xué)習(xí)平臺,包含大量 ML 工具包、數(shù)據(jù)工程和部署工具。
  • H2O - 使用 Hadoop、R 和 Python 進(jìn)行統(tǒng)計、機(jī)器學(xué)習(xí)和數(shù)學(xué)運行時。
  • Keras - 一個高層神經(jīng)網(wǎng)絡(luò)API,Keras 由純 Python 編寫而成并基 Tensorflow、Theano 以及 CNTK 后端。受 Torch 啟發(fā)。
  • Lambdo 是一個工作流引擎,通過將一個分析管道(i)特征工程和機(jī)器學(xué)習(xí)(ii)模型訓(xùn)練和預(yù)測(iii)結(jié)合起來,通過用戶定義(Python)函數(shù)實現(xiàn)表填充和列評估,大大簡化了數(shù)據(jù)處理和分析。
  • Mahout - 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。
  • MLbase - 是Spark生態(tài)圈的一部分,專注于機(jī)器學(xué)習(xí),包含三個組件:MLlib、MLI、ML Optimizer。
  • MLPNeuralNet - 一個針對 iOS 和 Mac OS 系統(tǒng)的快速多層感知神經(jīng)網(wǎng)絡(luò)庫,可通過已訓(xùn)練的神經(jīng)網(wǎng)絡(luò)預(yù)測新實例。
  • MOA - 實時進(jìn)行大數(shù)據(jù)流挖掘和大規(guī)模機(jī)器學(xué)習(xí)。
  • MonkeyLearn - 讓文本挖掘變得很容易,可以從文本中提取和分類數(shù)據(jù)。
  • ND4J - JVM 的矩陣庫,可以認(rèn)為是 Java 中的 Numpy。
  • nupic - 一個實現(xiàn)了HTM學(xué)習(xí)算法的機(jī)器智能平臺。
  • PredictionIO - 面向開發(fā)人員和數(shù)據(jù)科學(xué)家的開源機(jī)器學(xué)習(xí)服務(wù),構(gòu)建在 Hadoop, Mahout 和 Cascading 之上。
  • RL4J - 一個與 Deeplearning4j 集成的強(qiáng)化學(xué)習(xí)框架
  • SAMOA - 分布式流數(shù)據(jù)機(jī)器學(xué)習(xí)框架。
  • scikit-learn - 專門面向機(jī)器學(xué)習(xí)的 Python 開源框架,實現(xiàn)了各種成熟的算法。
  • Spark MLlib - 使用 Spark 實現(xiàn)一些常見的機(jī)器學(xué)習(xí)算法和實用程序,包括分類、回歸、聚類、協(xié)同過濾、降維以及底層優(yōu)化,
  • Sibyl - 谷歌大型機(jī)器學(xué)習(xí)系統(tǒng).
  • TensorFlow - 一個采用數(shù)據(jù)流圖(data flow graphs),用于數(shù)值計算的開源軟件庫。
  • Theano - 蒙特利爾大學(xué)支持的以 Python 為核心的機(jī)器學(xué)習(xí)類庫。
  • Torch - 是一個基于 BSD License 的開源的機(jī)器學(xué)習(xí)的框架
  • Velox - 服務(wù)于機(jī)器學(xué)習(xí)預(yù)測的系統(tǒng)。
  • Vowpal Wabbit - 由微軟和雅虎贊助的學(xué)習(xí)系統(tǒng)。
  • WEKA - 一套機(jī)器學(xué)習(xí)軟件。
  • BidMach - CPU 和 GPU 加速庫的機(jī)器學(xué)習(xí)庫。
  • Benchmarking
  • Apache Hadoop Benchmarking - 測試 Hadoop 性能的微基準(zhǔn)測試。
  • Berkeley SWIM Benchmark - 真實大數(shù)據(jù)工作負(fù)載基準(zhǔn)。
  • Intel HiBench - Hadoop 基準(zhǔn)套件。
  • PUMA Benchmarking - MapReduce 應(yīng)用程序的基準(zhǔn)測試套件。
  • Yahoo Gridmix3 - 來自 Yahoo 工程師團(tuán)隊的 Hadoop 集群基準(zhǔn)測試。
  • Deeplearning4j Benchmarks

安全

  • Apache Ranger - 是一個用在 Hadoop 平臺上并提供操作、監(jiān)控、管理綜合數(shù)據(jù)安全的框架。
  • Apache Eagle -由 eBay 公司開源的一個識別大數(shù)據(jù)平臺上的安全和性能問題的開源解決方案。
  • Apache Knox Gateway - Hadoop 集群中用于數(shù)據(jù)處理的 REST API 網(wǎng)關(guān)
  • Apache Sentry - 為 Hadoop 集群中的元數(shù)據(jù)和數(shù)據(jù)存儲提供集中、細(xì)粒度的訪問控制。
  • BDA - Hadoop 和 Spark 的漏洞檢測器

系統(tǒng)部署

  • Apache Ambari - 一個集中部署、管理、監(jiān)控Hadoop 分布式集群的工具。
  • Apache Bigtop - 一個針對基礎(chǔ)設(shè)施工程師和數(shù)據(jù)科學(xué)家的開源項目,旨在全面打包、測試和配置領(lǐng)先的開源大數(shù)據(jù)組件/項目,包括但不限于 Hadoop、HBase 和 Spark 。
  • Apache Helix - 集群管理框架。
  • Apache Mesos - 一個類似于 YARN 的集群管理器,提供了有效的、跨分布式應(yīng)用或框架的資源隔離和共享,可以運行 Hadoop、MPI、Hypertable、Spark。
  • Apache Slider - 是一個 YARN 應(yīng)用程序,用于在 YARN 上部署現(xiàn)有的分布式應(yīng)用程序。
  • Apache Whirr - 運行云服務(wù)的一組 Java 類庫。
  • Apache YARN - 集群管理系統(tǒng)。
  • Brooklyn - 簡化應(yīng)用程序部署和管理的庫。
  • Buildoop - 類似于 Apache BigTop,基于 Groovy 語言開發(fā)。
  • Cloudera HUE - 用于與 Hadoop 交互的 web 應(yīng)用程序。
  • Facebook Prism - 多數(shù)據(jù)中心復(fù)制系統(tǒng)。
  • Google Borg - Google 的內(nèi)部大型集群管理系統(tǒng)。
  • Google Omega - Google 內(nèi)部第三代的集群管理框架。
  • Hortonworks HOYA - 可以在 YARN 上部署 HBase 集群的應(yīng)用程序。
  • Kubernetes - Google 團(tuán)隊發(fā)起并維護(hù)的基于 Docker 的開源容器集群管理系統(tǒng)。
  • Marathon - 一個 Mesos 框架,能夠支持運行長服務(wù)。

應(yīng)用程序

  • 411 - 一個警報管理Web應(yīng)用程序。
  • Adobe spindle - 使用 Scala、Spark 和 Parquet 進(jìn)行 web 分析的下一代系統(tǒng)。
  • Apache Kiji - 基于 HBase 的實時數(shù)據(jù)采集與分析框架。
  • Apache Metron - 一種多功能的安全遙測數(shù)據(jù)捕獲、流分析和威脅響應(yīng)平臺,代表了安全數(shù)據(jù)平臺的最新發(fā)展水平。
  • Apache Nutch - 開源 web 爬蟲程序。
  • Apache OODT - NASA 開源的用于做數(shù)據(jù)管理的系統(tǒng)。
  • Apache Tika - 使用 Java 編寫的內(nèi)容檢測和分析框架。
  • Argus - 時序監(jiān)控報警平臺。
  • AthenaX - 一個流分析平臺,允許用戶使用結(jié)構(gòu)化查詢語言(SQL)運行生產(chǎn)質(zhì)量的大規(guī)模流分析。
  • Atlas - 用于管理維度時間序列數(shù)據(jù)的系統(tǒng)。
  • Countly - 基于 Node.js 和 MongoDB 的開源移動和 web 分析平臺。
  • Domino - 運行、擴(kuò)展、共享和部署模型——不需要任何基礎(chǔ)設(shè)施。
  • Eclipse BIRT - 基于 Eclipse 的報告系統(tǒng)。
  • ElastAert - 為 ES 打造的報警監(jiān)控工具。
  • Eventhub - 開源事件分析平臺。
  • Hermes - 構(gòu)建在 Kafka 之上的異步消息代理。
  • HIPI Library - 使用 Hadoop 的 MapReduce 來執(zhí)行圖像處理任務(wù)的API。
  • Hunk - Hadoop 的分析工具。
  • Imhotep - 大型分析平臺。
  • Jupyter - 基于網(wǎng)頁的用于交互計算的應(yīng)用程序。其可被應(yīng)用于全過程計算:開發(fā)、文檔編寫、運行代碼和展示結(jié)果。
  • MADlib - RDBMS 的數(shù)據(jù)處理庫,用于分析數(shù)據(jù)。
  • Kapacitor - 用于對時間序列數(shù)據(jù)進(jìn)行處理、監(jiān)視和警報的開源框架。
  • Kylin - 一個開源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查詢接口及多維分析(OLAP)能力以支持超大規(guī)模數(shù)據(jù),最初由 eBay Inc. 開發(fā)并貢獻(xiàn)至開源社區(qū),能在亞秒內(nèi)查詢巨大的Hive表。
  • PivotalR - 支持在 Pivotal HD / HAWQ 以及 PostgreSQL 上運行 R。
  • Rakam - 開源實時自定義分析平臺,由 Postgresql, Kinesis 和 PrestoDB 提供支持。
  • Qubole - 能夠自動擴(kuò)展 Hadoop 集群以及內(nèi)置的鏈接器。
  • Sense - 數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析的云平臺。
  • SnappyData - 一個統(tǒng)一 OLTP+OLAP +流式寫入的內(nèi)存分布式數(shù)據(jù)庫。
  • Snowplow - 由 Hadoop,Kinesis,Redshift 和 Postgres 支持的企業(yè)級 Web 和事件分析。
  • SparkR - 用于 Spark 的 R 前端。
  • Splunk - 一款成熟的商業(yè)化日志處理分析產(chǎn)品。
  • Sumo Logic - 基于云的日志處理分析產(chǎn)品。
  • Talend - YARN、Hadoop、HBASE、Hive、HCatalog 和 Pig 的統(tǒng)一開源環(huán)境。
  • Warp - 大數(shù)據(jù)示例查詢工具(OS X 應(yīng)用)

搜索引擎和框架

  • Apache Lucene - 一套用于全文檢索和搜索的開放源碼程序庫
  • Apache Solr - 是 Apache Lucene 項目的開源企業(yè)搜索平臺。其主要功能包括全文檢索、命中標(biāo)示、分面搜索、動態(tài)聚類、數(shù)據(jù)庫集成,以及富文本(如Word、PDF)的處理。
  • Elassandra - 是 ElasticSearch 的一個分支,經(jīng)過修改,可以作為 Apache Cassandra 的插件運行,具有可擴(kuò)展和靈活的點對點架構(gòu)。
  • ElasticSearch - 一個基于 Lucene 庫的搜索引擎。它提供了一個分布式、支持多租戶的全文搜索引擎,具有 HTTP Web 接口和無模式 JSON 文檔。
  • Enigma.io – 免費增值的 Web 應(yīng)用程序,用于對 Web 上抓取的海量數(shù)據(jù)集進(jìn)行瀏覽,過濾,分析,搜索和導(dǎo)出。
  • Facebook Unicorn - 社交圖搜索平臺.
  • Google Caffeine - 一個高性能、出色的緩存類庫。
  • Google Percolator - 由 Google 公司開發(fā)的、為大數(shù)據(jù)集群進(jìn)行增量處理更新的系統(tǒng),主要用于 google 網(wǎng)頁搜索索引服務(wù)。
  • TeraGoogle - 大型搜索索引。
  • HBase Coprocessor - HBase 的協(xié)處理器,Percolator 的實現(xiàn)。
  • Lily HBase Indexer - 一款快速、簡單的 HBase 的內(nèi)容檢索方案,它可以幫助你在 Solr 中建立 HBase 的數(shù)據(jù)索引,從而通過 Solr 進(jìn)行數(shù)據(jù)檢索。
  • LinkedIn Bobo - 完全用 Java 編寫的 Faceted Search 實現(xiàn),是 Apache Lucene 的擴(kuò)展。
  • LinkedIn Cleo -一個靈活的軟件庫,用于處理一些預(yù)輸入和自動完成的搜索功能。
  • LinkedIn Galene - LinkedIn 的搜索架構(gòu)。
  • LinkedIn Zoie - 一個用 Java 編寫的實時搜索/索引系統(tǒng)。
  • MG4J - MG4J (Managing Gigabytes for Java) 是一個用 Java 編寫的大型文檔集合的全文搜索引擎,它是高度可定制的,高性能的,并提供了最先進(jìn)的功能和新的研究算法。
  • Sphinx Search Server - 全文搜索引擎。
  • Vespa - 在大型數(shù)據(jù)集上進(jìn)行低延遲計算的引擎。它存儲和索引數(shù)據(jù),以便可以在服務(wù)時執(zhí)行對數(shù)據(jù)的查詢,選擇和處理。

MySQL 分支和演進(jìn)

  • Amazon RDS - AWS 的 MySQL 數(shù)據(jù)庫。
  • Drizzle - MySQL 6.0的演進(jìn)。
  • Google Cloud SQL - Google 云中的 MySQL 數(shù)據(jù)庫。
  • MariaDB - MySQL 的一個分支,采用GPL授權(quán)許可。目的是完全兼容 MySQL,包括 API 和命令行。
  • MySQL Cluster - 使用 NDB 集群存儲引擎實現(xiàn) MySQL 集群。
  • Percona Server - MySQL 增強(qiáng)版,可以替代它。
  • ProxySQL - MySQL 的高性能代理。
  • TokuDB - TokuDB 是 MySQL 和 MariaDB 的存儲引擎。
  • WebScaleSQL - WebScaleSQL 是 Facebook、 Google、Twitter 和 Linkedin 四家公司的MySQL 團(tuán)隊發(fā)起的 MySQL 開源組織,旨在改進(jìn) MySQL 在規(guī)模和性能等方面的問題。

PostgreSQL 分支和演進(jìn)

  • HadoopDB - MapReduce 和 DBMS 的混合體。
  • IBM Netezza - 高性能數(shù)據(jù)倉庫設(shè)備。
  • Postgres-XL - 可伸縮的基于 PostgreSQL 的開源數(shù)據(jù)庫集群。
  • RecDB - 完全在 PostgreSQL 內(nèi)部構(gòu)建的開源推薦引擎。
  • Stado - 僅針對數(shù)據(jù)倉庫和數(shù)據(jù)集市應(yīng)用程序的開源 MPP 數(shù)據(jù)庫系統(tǒng)。
  • Yahoo Everest - 由 PostgreSQL 派生的 PB 級數(shù)據(jù)庫/MPP。
  • TimescaleDB - 針對快速攝取和復(fù)雜查詢而優(yōu)化的開源時間序列數(shù)據(jù)庫。
  • PipelineDB - 開源的流式數(shù)據(jù)庫,基于 PostgreSQL 數(shù)據(jù)庫改造的,允許我們通過 SQL 的方式,對數(shù)據(jù)流做操作,并把操作結(jié)果儲存起來。

Memcached 分支和演進(jìn)

  • Facebook McDipper - 用于閃存的鍵/值緩存,設(shè)計目的在于提高閃存存儲的使用效率。
  • Facebook Memcached - Memcache 的分支。
  • Twemproxy - 一個快速、輕量級的 memcached 和 redis 代理。
  • Twitter Fatcache - 用于閃存的鍵/值緩存。
  • Twitter Twemcache - Memcache 的分支。

嵌入式數(shù)據(jù)庫

  • Actian PSQL - 由 Pervasive Software 開發(fā)的符合 ACID 的 DBMS,針對嵌入應(yīng)用程序進(jìn)行了優(yōu)化。
  • BerkeleyDB - 可為鍵/值數(shù)據(jù)提供高性能的嵌入式數(shù)據(jù)庫。
  • HanoiDB - Erlang LSM BTree 存儲。
  • LevelDB - Google 開源的持久化KV單機(jī)數(shù)據(jù)庫,具有很高的隨機(jī)寫,順序讀/寫性能。
  • LMDB - 由 Symas 開發(fā)的基于 Btree-based 的高性能 mmap key-value 數(shù)據(jù)庫
  • RocksDB - Facebook 公司基于 LevelDB 開發(fā)的一款開源嵌入式數(shù)據(jù)庫引擎。

商業(yè)智能

  • BIME Analytics - 商業(yè)智能云平臺。
  • Blazer - 使商業(yè)智能變得簡單。
  • Chartio - 商業(yè)智能平臺,可以可視化和瀏覽我們的數(shù)據(jù)。
  • datapine - 自助式商業(yè)智能工具。
  • GoodData - 商業(yè)智能和大數(shù)據(jù)分析軟件。
  • Jaspersoft - 強(qiáng)大的商業(yè)智能套件。
  • Jedox Palo - 可定制的商業(yè)智能平臺.
  • Jethrodata - 交互式大數(shù)據(jù)分析。
  • Metabase - 一個簡單、開源的方式,通過給公司成員提問,從得到的數(shù)據(jù)中進(jìn)行分析、學(xué)習(xí)。
  • Microsoft - 商業(yè)智能軟件及平臺。
  • Microstrategy - 用于商業(yè)智能、移動智能和網(wǎng)絡(luò)應(yīng)用程序的軟件平臺。
  • Numeracy - SQL 客戶端和商業(yè)智能。
  • Pentaho - 商業(yè)智能平臺。
  • Qlik - 商業(yè)智能及分析平臺。
  • Redash - 開源商業(yè)智能平臺,支持多個數(shù)據(jù)源和計劃查詢。
  • Saiku - 開源分析平臺。
  • SpagoBI - 開源商業(yè)智能平臺。
  • SparklineData SNAP - 基于 Apache Spark 的商業(yè)智能平臺。
  • Tableau - 商業(yè)智能平臺。
  • Zoomdata - 大數(shù)據(jù)分析平臺。

數(shù)據(jù)可視化

  • Airpal - PrestoDB 的 Web UI。
  • AnyChart - 一套靈活的 Java (HTML5) 庫,可滿足您的所有數(shù)據(jù)可視化需求。
  • Arbor - 一個使用 web workers 和 jQuery 創(chuàng)建的圖可視化庫。
  • Banana - 可視化存儲在 Solr 中的日志和帶時間戳的數(shù)據(jù),是 Kibana 的一部分。
  • Bloomery - Impala 的 Web UI。
  • Bokeh - 一個 Python 交互式可視化庫,支持現(xiàn)代化 Web 瀏覽器,提供非常完美的展示功能。
  • C3 - 基于 D3 的可重用圖表庫
  • CartoDB - 開源的云上地理空間數(shù)據(jù)庫,允許存儲和可視化 web 上的數(shù)據(jù)。使用 CartoDB 可以快速創(chuàng)建基于地圖的可視化效果。
  • chartd - 響應(yīng)式、視網(wǎng)膜兼容圖表,僅需要一個 img 標(biāo)簽。
  • Chart.js - 一套開源、簡單、干凈并且有吸引力的基于 HTML5 技術(shù)的 Java 圖表工具。
  • Chartist.js - 非常簡單而且實用的 Java 前端圖表生成器。
  • Crossfilter - 一個 Java 庫,用于在 Java 中制作交互式的儀表板,可以與 dc.js 、d3.js 一起工作。
  • Cubism - 用于時間序列可視化的 Java 庫。
  • Cytoscape - 一個專注于網(wǎng)絡(luò)可視化和分析的開源軟件。
  • DC.js - 一個用于網(wǎng)頁作圖、生成互動圖形的 Java 函數(shù)庫。
  • D3 - 目前最流行的數(shù)據(jù)可視化庫之一,小型,靈活,高效的數(shù)據(jù)可視化庫,用來創(chuàng)建和操作基于數(shù)據(jù)的交互式文檔。
  • D3.compose - 由可重復(fù)使用的圖表和組件組成復(fù)雜的、數(shù)據(jù)驅(qū)動的可視化文件。
  • D3Plus - d3.js 的一組相當(dāng)強(qiáng)大的可重用圖表和樣式。
  • DevExtreme React Chart - 基于高性能插件的 React 圖表,用于 Bootstrap 和 Material Design。
  • Echarts - 一款由百度前端技術(shù)部開發(fā)的,基于Java 的數(shù)據(jù)可視化圖表庫,提供直觀,生動,可交互,可個性化定制的數(shù)據(jù)可視化圖表。
  • Envisionjs - 一個基于 HTML5 技術(shù)的數(shù)據(jù)可視化庫
  • FnordMetric - 一個開源的 Web 應(yīng)用,可用于創(chuàng)建實時儀表板,方便可視化任何數(shù)據(jù)。
  • Frappe Charts - 一個受 Github 啟發(fā)的輕量級 SVG 圖表庫,它不依賴任何類庫和框架。
  • Freeboard - 讓用戶創(chuàng)建他們自己的用來監(jiān)控物聯(lián)網(wǎng)部署的儀表盤,該代碼在 GitHub上免費提供,你可以通過這些儀表板展示跟蹤空氣質(zhì)量、住宅電器、釀酒情況和實時環(huán)境條件變化。
  • Gephi - 一款開源免費跨平臺基于 JVM 的網(wǎng)絡(luò)分析領(lǐng)域的數(shù)據(jù)可視化處理軟件
  • Google Charts - 一種交互式 Web 服務(wù),可根據(jù)用戶提供的數(shù)據(jù)創(chuàng)建圖形圖表
  • Grafana - 一個跨平臺的開源的度量分析和可視化工具,可以通過將采集的數(shù)據(jù)查詢?nèi)缓罂梢暬恼故荆⒓皶r通知。
  • Graphite - 一款開源的監(jiān)控繪圖工具。
  • Highcharts - 兼容 IE6+、完美支持移動端、圖表類型豐富、方便快捷的 HTML5 交互性圖表庫。
  • IPython - 一種基于 Python 的交互式解釋器。相較于原生的 Python Shell,IPython 提供了更為強(qiáng)大的編輯和交互功能。
  • Kibana - Elasticsearch 的開源數(shù)據(jù)可視化插件。
  • Lumify - 開源大數(shù)據(jù)分析可視化平臺。
  • Matplotlib - Python 編程語言及其數(shù)值數(shù)學(xué)擴(kuò)展包 NumPy 的可視化操作界面。
  • Metricsgraphic.js - 一個建立在 D3 基礎(chǔ)上,為可視化和時間序列化的數(shù)據(jù)而優(yōu)化的庫。
  • NVD3 - d3.js 的圖表組件。
  • Peity - 漸進(jìn)式 SVG 條形圖,折線圖和餅圖。
  • Plot.ly - Plotly 為個人和協(xié)作提供在線圖形,分析和統(tǒng)計工具,以及 Python,R,MATLAB,Perl,Julia,Arduino 和 REST 的科學(xué)圖形庫。
  • Plotly.js 一個開源的交互式 Java 圖形庫,建立在 d3.js 和 webgl 之上,并支持 20 多種類型的交互式圖表。
  • Recline - 簡單而強(qiáng)大的庫,可以使用純 Java 和 HTML 構(gòu)建數(shù)據(jù)應(yīng)用程序。
  • Redash - 查詢和可視化數(shù)據(jù)的開源平臺。
  • ReCharts - 一個基于React組件的可組合圖表庫。
  • Shiny - R 的 Web 應(yīng)用程序框架。
  • Sigma.js - 專門用于圖形繪制的 Java 庫。
  • Superset - 由 Airbnb 開發(fā)并開源一個數(shù)據(jù)探索和可視化平臺,設(shè)計用來提供直觀的,可視化的,交互式的分析體驗。
  • Vega - 一個可視化的語法。
  • Zeppelin - 一個基于 Web 的 notebook,提供交互數(shù)據(jù)分析和可視化。
  • Zing Charts - 一個功能強(qiáng)大的 Java 圖表。

物聯(lián)網(wǎng)和傳感器數(shù)據(jù)

  • Apache Edgent (Incubating) - 一種編程模型和具有微內(nèi)核風(fēng)格的運行時,可嵌入到網(wǎng)關(guān)和小型的物聯(lián)網(wǎng)設(shè)備中。
  • Azure IoT Hub - 托管服務(wù),支持 IoT 設(shè)備與 Azure 之間的雙向通信。
  • TempoIQ - 基于云計算的傳感器分析。.
  • 2lemetry - 物聯(lián)網(wǎng)平臺。
  • Pubnub - 數(shù)據(jù)流網(wǎng)絡(luò)。
  • ThingWorx - 可用于查找數(shù)據(jù)來源,使數(shù)據(jù)與情境相關(guān),合成數(shù)據(jù),同時協(xié)調(diào)流程,以提供強(qiáng)大的Web、移動和AR 體驗的平臺。
  • IFTTT - 一個新生的網(wǎng)絡(luò)服務(wù)平臺,通過其他不同平臺的條件來決定是否執(zhí)行下一條命令。
  • Evrything- 使產(chǎn)品智能化。
  • NetLytics - 用于在Spark上處理網(wǎng)絡(luò)數(shù)據(jù)的分析平臺。

有趣的閱讀材料

  • Big Data Benchmark - Redshift,Hive,Shark,Impala 和 Stiger/Tez的基準(zhǔn)。
  • NoSQL Comparison - Cassandra,MongoDB,CouchDB,Redis,Riak,HBase,Couchbase,Neo4j,Hypertable,ElasticSearch,Accumulo,VoltDB 和 Scalaris 的比較。
  • Monitoring Kafka performance - 監(jiān)視 Apache Kafka 的指南,包括度量收集的本地方法。
  • Monitoring Hadoop performance - 監(jiān)視 Hadoop 的指南,概述了 Hadoop 體系結(jié)構(gòu)以及度量收集的本機(jī)方法。
  • Monitoring Cassandra performance - 監(jiān)控 Cassandra 的指南,包括度量收集的本地方法。

有趣的論文

Awesome Big Data 里關(guān)于論文的不是很全,我之前在我的博客網(wǎng)站-過往記憶大數(shù)據(jù)(地址:https://www.iteblog.com里面有整理過一些,歡迎訪問我的博文地址:https://www.iteblog.com/archives/2021.html 獲取更多。

2015 - 2016

  • 2015 - Facebook - One Trillion Edges: Graph Processing at Facebook-Scale.

2013 - 2014

  • 2014 - Stanford - Mining of Massive Datasets.
  • 2013 - AMPLab - Presto: Distributed Machine Learning and Graph Processing with Sparse Matrices.
  • 2013 - AMPLab - MLbase: A Distributed Machine-learning System.
  • 2013 - AMPLab - Shark: SQL and Rich Analytics at Scale.
  • 2013 - AMPLab - GraphX: A Resilient Distributed Graph System on Spark.
  • 2013 - Google - HyperLogLog in Practice: Algorithmic Engineering of a State of The Art Cardinality Estimation Algorithm.
  • 2013 - Microsoft - Scalable Progressive Analytics on Big Data in the Cloud.
  • 2013 - Metamarkets - Druid: A Real-time Analytical Data Store.
  • 2013 - Google - Online, Asynchronous Schema Change in F1.
  • 2013 - Google - F1: A Distributed SQL Database That Scales.
  • 2013 - Google - MillWheel: Fault-Tolerant Stream Processing at Internet Scale.
  • 2013 - Facebook - Scuba: Diving into Data at Facebook.
  • 2013 - Facebook - Unicorn: A System for Searching the Social Graph.
  • 2013 - Facebook - Scaling Memcache at Facebook.

2011 - 2012

  • 2012 - Twitter - The Unified Logging Infrastructure
  • for Data Analytics at Twitter.
  • 2012 - AMPLab - Blink and It’s Done: Interactive Queries on Very Large Data.
  • 2012 - AMPLab - Fast and Interactive Analytics over Hadoop Data with Spark.
  • 2012 - AMPLab - Shark: Fast Data Analysis Using Coarse-grained Distributed Memory.
  • 2012 - Microsoft - Paxos Replicated State Machines as the Basis of a High-Performance Data Store.
  • 2012 - Microsoft - Paxos Made Parallel.
  • 2012 - AMPLab - BlinkDB: Queries with Bounded Errors and Bounded Response Times on Very Large Data.
  • 2012 - Google - Processing a trillion cells per mouse click.
  • 2012 - Google - Spanner: Google’s Globally-Distributed Database.
  • 2011 - AMPLab - Scarlett: Coping with Skewed Popularity Content in MapReduce Clusters.
  • 2011 - AMPLab - Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center.
  • 2011 - Google - Megastore: Providing Scalable, Highly Available Storage for Interactive Services.

2001 - 2010

  • 2010 - Facebook - Finding a needle in Haystack: Facebook’s photo storage.
  • 2010 - AMPLab - Spark: Cluster Computing with Working Sets.
  • 2010 - Google - Pregel: A System for Large-Scale Graph Processing.
  • 2010 - Google - Large-scale Incremental Processing Using Distributed Transactions and Noti?cations base of Percolator and Caffeine.
  • 2010 - Google - Dremel: Interactive Analysis of Web-Scale Datasets.
  • 2010 - Yahoo - S4: Distributed Stream Computing Platform.
  • 2009 - HadoopDB: An Architectural Hybrid of MapReduce and DBMS Technologies for Analytical Workloads.
  • 2008 - AMPLab - Chukwa: A large-scale monitoring system.
  • 2007 - Amazon - Dynamo: Amazon’s Highly Available Key-value Store.
  • 2006 - Google - The Chubby lock service for loosely-coupled distributed systems.
  • 2006 - Google - Bigtable: A Distributed Storage System for Structured Data.
  • 2004 - Google - MapReduce: Simplied Data Processing on Large Clusters.
  • 2003 - Google - The Google File System.

視頻

  • Spark in Motion - Spark in Motion 教你如何使用 Spark 進(jìn)行批處理和流數(shù)據(jù)分析。

圖書

Streaming

  • Data Science at Scale with Python and Dask - Data Science at Scale with Python and Dask teaches you how to build distributed data projects that can handle huge amounts of data.
  • Streaming Data - Streaming Data introduces the concepts and requirements of streaming and real-time data systems.
  • Storm Applied - Storm Applied is a practical guide to using Apache Storm for the real-world tasks associated with processing and analyzing real-time data streams.
  • Fundamentals of Stream Processing: Application Design, Systems, and Analytics - This comprehensive, hands-on guide combining the fundamental building blocks and emerging research in stream processing is ideal for application designers, system builders, analytic developers, as well as students and researchers in the field.
  • Stream Data Processing: A Quality of Service Perspective - Presents a new paradigm suitable for stream and complex event processing.
  • Unified Log Processing - Unified Log Processing is a practical guide to implementing a unified log of event streams (Kafka or Kinesis) in your business
  • Kafka Streams in Action - Kafka Streams in Action teaches you everything you need to know to implement stream processing on data flowing into your Kafka platform, allowing you to focus on getting more from your data without sacrificing time or effort.
  • Big Data - Big Data teaches you to build big data systems using an architecture that takes advantage of clustered hardware along with new tools designed specifically to capture and analyze web-scale data.
  • Spark in Action & Spark in Action 2nd Ed. - Spark in Action teaches you the theory and skills you need to effectively handle batch and streaming data using Spark. Fully updated for Spark 2.0.
  • Kafka in Action - Kafka in Action is a fast-paced introduction to every aspect of working with Kafka you need to really reap its benefits.
  • Fusion in Action - Fusion in Action teaches you to build a full-featured data analytics pipeline, including document and data search and distributed data clustering.
  • Reactive Data Handling - Reactive Data Handling is a collection of five hand-picked chapters, selected by Manuel Bernhardt, that introduce you to building reactive applications capable of handling real-time processing with large data loads--free eBook!

Distributed systems

  • Distributed Systems for fun and profit – 分布式系統(tǒng)理論。包括時間、順序、副本等。

Graph Based approach

Graph-Powered Machine Learning - Alessandro Negro,結(jié)合圖論和模型改進(jìn)機(jī)器學(xué)習(xí)項目

Data Visualization

  • The beauty of data visualization
  • Designing Data Visualizations with Noah Iliinsky
  • Hans Rosling's 200 Countries, 200 Years, 4 Minutes
  • Ice Bucket Challenge Data Visualization

從9月11日開始至10月15日截止,一共五周時間,每周二我會從公眾號底部留言互動+分享+再看綜合最多的讀者中抽取一名讀者,免費包郵送實體新書《HBase原理與實踐》,留言互動起來吧~返回搜狐,查看更多

責(zé)任編輯:

聲明:該文章版權(quán)歸原作者所有,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請在30日內(nèi)與本網(wǎng)聯(lián)系。
您閱讀這篇文章花了0
轉(zhuǎn)發(fā)這篇文章只需要1秒鐘
喜歡這篇 0
評論一下 0
凱派爾知識產(chǎn)權(quán)全新業(yè)務(wù)全面上線
相關(guān)文章
評論
登錄后發(fā)表評論
凱派爾知識產(chǎn)權(quán)全新業(yè)務(wù)全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創(chuàng)服務(wù)
歷史搜索 清空

Tel:18514777506

關(guān)注微信公眾號

創(chuàng)頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
97超碰欧美中文字幕| 欧美一级久久久| 日韩欧美在线观看一区二区三区| 中文字幕精品一区| 奇米综合一区二区三区精品视频| 99久久精品国产观看| www激情久久| 丝袜美腿高跟呻吟高潮一区| 99视频国产精品| 久久久91精品国产一区二区三区| 视频一区二区三区中文字幕| 91网站在线播放| 亚洲国产高清不卡| 国产一二精品视频| 日韩欧美美女一区二区三区| 午夜在线成人av| 在线亚洲人成电影网站色www| 国产欧美日产一区| 国产一区二区三区免费播放| 日韩免费看的电影| 日本一道高清亚洲日美韩| 欧美体内she精视频| 成人免费视频在线观看| 岛国一区二区在线观看| 337p粉嫩大胆噜噜噜噜噜91av| 爽好久久久欧美精品| 欧美视频一区二| 亚洲欧美另类图片小说| 97精品久久久午夜一区二区三区 | 一本久久综合亚洲鲁鲁五月天| 久久久国际精品| 激情av综合网| 欧美一区二区观看视频| 日韩精品久久久久久| 欧美日韩高清一区二区不卡| 亚洲一区二区三区四区五区黄 | 91麻豆精品国产91久久久使用方法| 国产91精品在线观看| 亚洲精品一区二区三区影院| 美女视频免费一区| 欧美一级专区免费大片| 蜜臀av性久久久久蜜臀aⅴ四虎| 6080国产精品一区二区| 日韩av电影免费观看高清完整版| 欧美三级电影精品| 亚洲国产成人高清精品| 欧美亚洲一区二区在线观看| 亚洲伊人色欲综合网| 欧美午夜精品免费| 天天综合色天天综合| 67194成人在线观看| 麻豆精品在线播放| 久久久精品天堂| 成人听书哪个软件好| 亚洲欧洲成人av每日更新| 色综合色狠狠综合色| 一区二区免费视频| 欧美裸体bbwbbwbbw| 男女激情视频一区| 久久亚洲影视婷婷| 成人丝袜高跟foot| 亚洲美女电影在线| 欧美视频在线一区| 日韩电影免费在线看| 日韩免费高清视频| 高清国产一区二区| 亚洲柠檬福利资源导航| 欧美色手机在线观看| 天堂一区二区在线| 精品国产一二三区| 成人一区二区三区视频在线观看| 一区在线播放视频| 欧美午夜不卡视频| 蜜臀久久99精品久久久久宅男 | 91久久免费观看| 在线一区二区三区做爰视频网站| 99精品欧美一区二区三区小说| 国产精品中文字幕欧美| 精品在线观看视频| 日本欧美韩国一区三区| 天天av天天翘天天综合网色鬼国产 | 欧美一级久久久| 91精品国产综合久久久久| 欧美日韩专区在线| 亚洲成人午夜电影| 亚洲欧美激情在线| 免费精品视频在线| 欧美日韩中文字幕精品| 中文字幕日韩一区| 国产精品中文欧美| 亚洲人成在线播放网站岛国| 欧美片网站yy| 精品国产91久久久久久久妲己| 国产乱人伦精品一区二区在线观看 | 精品国产乱码久久久久久老虎| 丁香亚洲综合激情啪啪综合| 一区二区三区日韩精品视频| 91精品国产麻豆| 成人午夜又粗又硬又大| 亚洲www啪成人一区二区麻豆| 精品99999| 欧洲亚洲国产日韩| 极品美女销魂一区二区三区| 亚洲色图19p| 欧美变态凌虐bdsm| 在线观看成人免费视频| 韩国三级在线一区| 亚洲电影中文字幕在线观看| 国产日韩在线不卡| 欧美日韩精品欧美日韩精品一| 国产乱子轮精品视频| 亚洲综合清纯丝袜自拍| 久久麻豆一区二区| 欧美高清激情brazzers| av中文字幕亚洲| 久久精品72免费观看| 一区二区三区 在线观看视频| 久久综合精品国产一区二区三区| 欧美色综合久久| 丁香另类激情小说| 日本vs亚洲vs韩国一区三区| 成人免费视频在线观看| 精品国产不卡一区二区三区| 在线视频一区二区三区| 成人激情免费视频| 久久aⅴ国产欧美74aaa| 亚洲精品成人精品456| 久久久国产午夜精品| 91精品国产欧美一区二区成人| 色婷婷亚洲综合| 成人综合在线观看| 国内精品视频一区二区三区八戒| 亚洲一区二区三区视频在线播放 | 日韩不卡一二三区| 亚洲综合男人的天堂| 中文字幕中文字幕在线一区| 精品国产免费一区二区三区四区| 欧美日韩国产成人在线91| 91首页免费视频| 岛国精品一区二区| 国产一区二区看久久| 青青国产91久久久久久| 亚洲高清免费观看| 有码一区二区三区| 亚洲色大成网站www久久九九| 日本一区二区视频在线| 欧美精品一区二区三区很污很色的| 天天色天天操综合| 亚洲一区免费观看| 亚洲免费观看高清在线观看| 国产精品视频看| 国产欧美一区二区精品性色超碰 | 亚洲精品乱码久久久久久久久 | 亚洲国产视频在线| 亚洲同性gay激情无套| 国产欧美日韩不卡免费| 亚洲精品一区二区三区香蕉| 日韩一区二区电影在线| 91精品欧美久久久久久动漫| 欧美日韩中文精品| 欧美伊人久久久久久久久影院| 91影视在线播放| 99久久777色| 99re6这里只有精品视频在线观看| 波多野结衣中文字幕一区| 成人福利视频在线看| 成人avav影音| 99久久er热在这里只有精品15| av影院午夜一区| 99精品国产91久久久久久| 99久久精品国产网站| 91视视频在线直接观看在线看网页在线看| 成人黄色软件下载| 91在线视频官网| 91国在线观看| 欧美日韩三级在线| 欧美一卡二卡在线| 精品播放一区二区| 亚洲国产成人自拍| 亚洲私人影院在线观看| 一区二区三区欧美久久| 亚洲va国产天堂va久久en| 日韩和欧美的一区| 精品中文字幕一区二区小辣椒| 激情五月婷婷综合网| 国产盗摄女厕一区二区三区 | 中文字幕中文字幕一区二区 | av在线不卡免费看| 色婷婷综合中文久久一本| 欧美亚州韩日在线看免费版国语版| 亚洲一区免费观看| 性感美女极品91精品| 麻豆专区一区二区三区四区五区| 久久99精品久久久久久| 国产成人精品免费在线| 97se亚洲国产综合自在线 | 亚洲永久精品国产| 青青草一区二区三区| 国产精品一区二区在线观看不卡 | 欧美色网一区二区|