史上最全的大數據學習資源(Awesome Big Data)

2021-02-19 明創企源

很多人在學習大數據的時候比較迷茫，不知從何學起，也不能夠比較系統、全面的了解大數據框架。為此，過往記憶花了一個周末的時間把 Awesome Big Data 近 600 個大數據相關的調度、存儲、計算、資料庫以及可視化等介紹全部翻譯了一遍，供大家查漏補缺，全面學習，強烈建議收藏。更多大數據技術知識學習，請持續關注【過往記憶大數據】微信公眾號。

AddThis Hydra - 分布式數據處理和存儲系統，最初由 AddThis 開發。

AMPLab SIMR - 在 Hadoop MapReduce v1 上運行 Spark。

Apache APEX - 用於大數據流和批處理的統一企業平臺。

Apache Beam - 用於定義和執行數據處理工作流的統一模型和一組特定於語言的sdk。

Apache Crunch - 一個簡單的Java API，用於處理 Join 和數據聚合之類的任務，這些任務在普通 MapReduce 上實現起來很繁瑣。

Apache DataFu - 由 LinkedIn 為 Hadoop 和 Pig 開發的用戶定義函數的集合。

Apache Flink - 分布式處理引擎框架，用於在無界和有界數據流上進行有狀態計算。

Apache Gearpump -基於 Akka 的實時大數據流引擎。

Apache Gora - 內存數據模型和持久性框架。

Apache Hama - BSP(Bulk Synchronous Parallel)計算框架。

Apache MapReduce -在集群上使用並行分布式算法處理大型數據集的編程模型。

Apache Pig - 用於表達 Hadoop 數據分析程序的高級語言。

Apache REEF - 用來簡化和統一低層大數據系統的保留性評估執行框架

Apache S4 - 一個常規用途的、分布式的、可伸縮的、容錯的、可插入式的平臺，主要用於處理連續的數據流

Apache Spark - 快速、通用的大規模數據處理引擎

Apache Spark Streaming - 實時流處理引擎，屬於 Spark 的一部分.

Apache Storm - Twitter 開發的，可在 YARN 上進行流處理的框架。

Apache Samza -基於 Kafka 和 YARN 的流處理的框架

Apache Tez - 基於 YARN 的，可執行複雜 DAG (有向無環圖)任務的應用程式框架。

Apache Twill - YARN 上的抽象，減少了開發分布式應用程式的複雜性。

Baidu Bigflow - 一個允許編寫分布式計算程序的接口，它提供了許多簡單、靈活、強大的 API 來輕鬆處理任何規模的數據。

Cascalog - 數據處理和查詢庫。

Cheetah - MapReduce 之上的高性能，用戶自定義數據倉庫。

Concurrent Cascading - Hadoop 上的數據管理/分析框架。

Damballa Parkour - 為 Clojure 開發的 MapReduce 庫。

Datasalt Pangool - 可替代 MapReduce 範式.

DataTorrent StrAM -實時計算引擎，旨在以一種儘可能暢通的方式支持分布式、異步、實時的內存大數據計算，同時最小化開銷和對性能的影響。

Facebook Corona - Hadoop 的增強，可以消除單點故障。

Facebook Peregrine - Map Reduce 框架.

Facebook Scuba - 分布式內存數據存儲。

Google Dataflow - 創建數據管道來幫助我們攝取、轉換和分析數據。

Google MapReduce - map reduce 框架.

Google MillWheel - 容錯流處理框架。

IBM Streams - 用於分布式處理和實時分析的平臺。提供開箱即用的高級分析工具包，如地理空間，時間序列等。

JAQL - 聲明式程式語言，用於處理結構化、半結構化和非結構化數據。

Kite - 一組庫、工具、示例和文檔，重點在於簡化在 Hadoop 生態系統之上構建系統的過程。

Metamarkets Druid - 用於實時分析大型數據集的框架。

Netflix PigPen - 是 Clojure 語音的 Map-Reduce，可以編譯到 Apache Pig 或者 Cascading 中

Nokia Disco - 諾基亞開發的 MapReduce 框架。

Onyx - 雲的分布式計算。

Pinterest Pinlater - 異步作業執行系統。

Pydoop - 用 Python 編寫，並採用 MapReduce 和 HDFS 技術對 Hadoop 進行擴展的 API。

Ray - 用於構建和運行分布式應用程式的快速而簡單的框架。

Rackerlabs Blueflood - 多租戶分布式度量處理系統

Skale - NodeJS 上的高性能分布式數據處理框架。

Stratosphere - 通用集群計算框架。

Streamdrill - streamdrill 在計算不同時間窗口上的事件流活動非常有用，並找出最活躍的時間窗口。

streamsx.topology - 用於在 Java，Python 或 Scala 中構建 IBM Streams 應用程式的庫。

Tuktu - 易於使用的批處理和流式計算平臺，可以使用 Scala，Akka 和 Play 構建！

Twitter Heron - 由 Twitter 開發的一個實時、分布式、容錯的流處理引擎，主要用於代替 Storm。

Twitter Scalding - 用於 Map Reduce 作業的 Scala 庫，基於 Cascading 構建。

Twitter Summingbird - Summingbird 是一個類庫，它允許我們編寫看起來像原生 Scala 或 Java 集合轉換的 MapReduce 程序，並在許多著名的分布式 MapReduce 平臺上執行，包括 Storm 和 Scalding，由 Twitter 開發。

Twitter TSAR - Twitter 開發的時間序列聚合器

Wallaroo - 超快彈性數據處理引擎，可以使有狀態、分析、流處理和事件驅動的 AI 應用程式能夠快速投入生產，而無需考慮規模。它為開發人員提供了幾種語言的 api 來實現他們的自定義業務邏輯。

Ambry - 分布式對象存儲，支持存儲數萬億個小的不可變對象或者數十億個大對象。

Apache HDFS - 提供對應用程式數據的高吞吐量訪問的分布式文件系統。

Apache Kudu - Hadoop 的存儲層可實現對數據的快速分析。

BeeGFS - 之前稱為 FhGFS，是一種並行分布式文件系統。

Ceph Filesystem - 一個支持POSIX接口的文件系統

Disco DDFS - 分布式文件系統。

Facebook Haystack - 對象存儲系統。

Google Colossus - 分布式文件系統 (GFS2).

Google GFS - 分布式文件系統。

Google Megastore - 可擴展、高可用的存儲。

GridGain - GGFS, Hadoop 兼容的內存文件系統。

Lustre file system - 高性能分布式文件系統。

Microsoft Azure Data Lake Store - Azure 上兼容 HDFS 的存儲

Quantcast File System QFS - 開源分布式文件系統。

Red Hat GlusterFS - 橫向擴展網絡附加的存儲文件系統。

Seaweed-FS -簡單且高度可伸縮的分布式文件系統。

Alluxio - 開源的基於內存的分布式存儲系統。

Tahoe-LAFS - 去中心化的雲存儲系統。

Baidu File System - 分布式文件系統。

注意: 業界存在一些術語混淆，存在兩種不同的東西被稱為「列式資料庫」。這裡列出的一些是圍繞「鍵 - 映射」數據模型構建的分布式持久性資料庫：所有數據都有一個(可能是組合的)鍵，鍵值對的映射與之關聯。在某些系統中，多個這樣的值映射可以與一個鍵關聯，這些映射稱為「列族」(值映射鍵稱為「列」)。

另一種也稱為「列式資料庫」的技術，特點是它在磁碟或內存中如何存儲數據。這些系統將所有行的相同列值數據存儲在一起。因此，需要做更多的工作來獲得給定鍵的所有列，但是需要更少的工作來獲得給定列的所有值。

你可以到 Prof. Daniel Abadi 的博文: 了解更多關於如何區分這兩存儲系統的討論。.

Aerospike - 一個分布式，高可用的 K-V 類型的 NOSQL 資料庫。提供類似傳統資料庫的ACID操作。

Amazon DynamoDB - 分布式 key/value 存儲, Dynamo 論文的實現。

Badger - 一個快速、簡單、高效和持久的鍵值存儲，是用 Go 編寫。

Bolt - 可在 Go 語言中使用的嵌入式鍵值資料庫.

BTDB - .Net 中的 Key Value 資料庫，包含 Object DB Layer, RPC, dynamic IL 等等。

BuntDB - Go 語言的一個快速，可嵌入，基於內存的鍵/值資料庫，支持自定義索引和地理空間。

Edis - 協議兼容 Redis 的資料庫，可替代 Redis。

ElephantDB - 專門用於從 Hadoop 導出數據的分布式資料庫。

EventStore - 分布式時間序列資料庫。

GridDB - 一款高度可擴展的 NoSQL 資料庫，非常適用於物聯網和大數據領域，還具有高可靠性和高性能這些特性。

HyperDex - 可擴展的下一代鍵值和文檔存儲，具有多種功能，包括一致性，容錯性和高性能。

Ignite - 分布式內存網格資料庫，具有可持久化，分布式事務，分布式計算等特點，此外還支持豐富的鍵值存儲以及SQL語法。

LinkedIn Krati - 一個簡單的持久化數據存儲，具有非常低的延遲和高吞吐量。

Linkedin Voldemort - 分布式 key/value 存儲系統。

Oracle NoSQL Database - Oracle 公司開發的分布式 key/value 存儲系統。.

Redis -一個開源(BSD許可)的，內存中的數據結構存儲系統，它可以用作資料庫、緩存和消息中間件。

Riak - 去中心化的資料庫存儲。

Storehaus -Twitter 開發的用於異步 key/value 存儲的類庫。

SummitDB - 基於內存的 NoSQL 鍵/值資料庫，具有磁碟持久性，並支持 Raft 一致性算法。

Tarantool - 一個高效的 NoSQL 資料庫和一個 Lua 應用伺服器。

TiKV - 一個基於 Rust 的分布式鍵值資料庫，並受谷歌 Spanner 和 HBase 的啟發。

Tile38 - 具有空間索引和實時地理圍欄的地理位置資料庫。支持各種對象類型，包括緯度/經度點，邊界框，XYZ切片，Geohashes和GeoJSON

TreodeDB - key-value 存儲，支持數據副本、分片以及提供原子多行寫。

AgensGraph - 基於 PostgreSQL 的新一代多模型圖資料庫。

Apache Giraph - 一個可伸縮的分布式迭代圖處理系統，基於 Hadoop 平臺，靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

Apache Spark Bagel - Bagel 是谷歌 Pregel 圖處理框架的 Spark 實現，支持基本的圖形計算、組合器（combiners）和聚合器（aggregators）。目前已經被 GraphX 替代，在 Spark 2.0.0 版本已經被移除。

ArangoDB - 多模型分布式資料庫。

DGraph - 一個可伸縮的、分布式的、低延遲的、高吞吐量的圖資料庫，旨在提供谷歌生產級別的規模和吞吐量，具有足夠低的延遲，可以在 TB 級的結構化數據上為實時用戶查詢提供服務。

EliasDB - 一個輕量級的基於圖的資料庫，不需要任何第三方庫。

Facebook TAO - TAO 是 facebook 廣泛使用的分布式數據存儲，用於存儲和服務社交圖。

GCHQ Gaffer - Gaffer 是 GCHQ（英國政府通訊總部）於2015年12月14日在 GitHub 上公布的第一個開源項目，Gaffer 是個大規模圖形資料庫，可以方便存儲大規模圖的框架，節點和邊界有數據統計，比如計數，直方圖和草圖。這些統計數據是時間窗口的節點和邊界屬性，可以根據時間動態更新。

Google Cayley - 開源的圖資料庫。

Google Pregel - 圖處理框架。

GraphLab PowerGraph - 包含 C++ 實現的 GraphLab API以及一組基於GraphLab API 構建的高性能機器學習和數據挖掘工具包。

GraphX - 一個分布式圖處理框架，它是基於 Spark 平臺提供對圖計算和圖挖掘簡潔易用的而豐富的接口，極大的方便了對分布式圖處理的需求。

Gremlin - 圖遍歷語言。

Infovore - 一個 map/reduce 框架，用來處理大量的 RDF 數據集，注入 Freebase 和 DBpedia，基於 Hadoop 構建。

Intel GraphBuilder - 基於 Hadoop 構造的大型圖工具。

JanusGraph - 開源分布式圖形資料庫，後端存儲可以選擇多種組件包括 Bigtable、HBase、Cassandra等，同時索引後端也可以選擇很多種，包括 Elasticsearch、Solr、Lucene 等。

MapGraph - 一個高級的 API 用於快速開發基於 GPU 的高性能圖形分析應用。

Microsoft Graph Engine - 一個基於內存的分布式大規模圖數據處理引擎，能夠幫助用戶更方便地構建實時查詢應用和高吞吐量離線分析平臺。在此之前，它在學術界更廣為人之的名稱是 Trinity。

Neo4j - 一個高性能的 NOSQL圖資料庫，完全由 Java 實現。

OrientDB - 文檔圖形資料庫。

Phoebus - 大型圖處理框架。

Titan - 建立在 Cassandra 之上的分布式圖資料庫。

Twitter FlockDB - 分布式圖資料庫。

NodeXL - Microsoft® Excel® 2007, 2010, 2013 and 2016 免費開源的模板，可以很容易的探索網絡圖。

Actian Ingres - 商業支持，開源 SQL 關係資料庫管理系統。

ActorDB - 分布式的 SQL 資料庫，可實現可伸縮的 K/V 存儲系統。ActorDB 基於 Actor 計算模型，與傳統的集中式資料庫不同，ActorDB 由任意數量的被成為 actor 的獨立和並發 SQL 資料庫組成。

Amazon RedShift -基於 PostgreSQL 的數據倉庫服務。

BayesDB - 一個貝葉斯資料庫，內建貝葉斯查詢語言 BQL，用戶無需統計方面知識即可解決一些基本的科學數據問題

Bedrock - 構建在 SQLite 之上的簡單、模塊化、網絡化、分布式事務層。

CitusDB - 通過分片和副本擴展 PostgreSQL。

Cockroach - 可伸縮、地理複製、事務性數據存儲。

Comdb2 - 一個基於樂觀並發控制技術的集群 RDBMS。

Datomic - 分布式資料庫旨在支持可伸縮、靈活和智能的應用程式。

FoundationDB - 分布式資料庫，受 F1 啟發。

Google F1 - 構建在 Spanner 之上的分布式 SQL 資料庫。

Google Spanner - Google的全球級的分布式資料庫，具有可擴展，多版本，全球分布式、同步複製等特性。

H-Store - 一個實驗性的資料庫管理系統。它專為駐線交易處理應用程式而設計。

Haeinsa - Haeinsa 是 HBase 可線性擴展的多行，多表事務庫。使用兩階段鎖定和樂觀並發控制來實現事務。事務的隔離級別是可序列化的。基於 Percolator 實現。

HandlerSocket - MySQL/MariaDB 的 NoSQL 插件。

InfiniSQL - 無限擴展的 RDBMS.

Map-D - GPU 內存資料庫，大數據分析可視化平臺.

MemSQL - 一款內存資料庫，它通過將數據存在內存中，將 SQL 語句預編譯為 C++ 而獲得極速執行效率。

NuoDB - 符合 SQL/ACID 的分布式資料庫。

Oracle TimesTen in-Memory Database - 基於內存的關係資料庫管理系統，具有持久性和可恢復性。

Pivotal GemFire XD - 低延遲、基於內存、分布式 SQL 數據存儲。為內存表數據提供 SQL 接口，可在 HDFS 中持久存儲。

SAP HANA - 基於內存、面向列、關係資料庫管理系統。

SenseiDB - 分布式、實時、半結構化的資料庫。

Sky - 用於靈活、高性能的行為數據分析的資料庫。

SymmetricDS - 用於文件和資料庫同步的開源軟體。

TiDB - 一款定位於在線事務處理/在線分析處理的融合型資料庫產品，實現了一鍵水平伸縮，強一致性的多副本數據安全，分布式事務，實時 OLAP 等重要特性。受 Google F1 啟發。

VoltDB - 聲稱是最快的內存資料庫.

Axibase Time Series Database - 基於 HBase 的時間序列資料庫，內置可視化、規則引擎和 SQL 支持。

Chronix - 一種時間序列存儲器，用於存儲高度壓縮的時間序列，並支持快速訪問數據。

Cube - 使用 MongoDB 來存儲時間序列數據。

Heroic - 基於 Cassandra 和 Elasticsearch 的可擴展時間序列資料庫。

InfluxDB - 分布式時間序列資料庫。

IronDB - 可擴展、通用時間序列資料庫。

Kairosdb - 和 OpenTSDB 類似，但是構建在 Cassandra 之上。

M3DB - 一個分布式時間序列資料庫，可用於長期存儲實時指標。

Newts -基於 Apache Cassandra 的時間序列資料庫。

OpenTSDB -構建在 HBase 之上的分布式時間序列資料庫。

Prometheus - 時間序列資料庫和服務監控系統。

Beringei - Facebook 的內存時間序列資料庫。

TrailDB - 用於存儲和查詢一系列事件的有效工具。

Druid MetaMarket 公司研發，專為海量數據集上的做高性能 OLAP (OnLine Analysis Processing)而設計的數據存儲和分析系統

Riak-TS Riak TS 是唯一專為物聯網和時間序列數據優化的企業級 NoSQL 時間序列資料庫。

Akumuli 一個數值型時間序列資料庫，可以存儲、處理時序列數據

Rhombus Cassandra的時間序列對象存儲。

Dalmatiner DB 快速分布式度量資料庫

Blueflood 一種用於攝取和處理時間序列數據的分布式系統。

Timely 是一個時間序列資料庫應用程式，它提供了基於 Accumulo 和 Grafana 的對時間序列數據的安全訪問。

SiriDB 具有集群功能的高擴展性、健壯性和快速的開源時間序列資料庫。

Thanos - Thanos 是一組組件，可以使用多個 Prometheus 部署創建具有無限存儲容量的高可用度量系統。

VictoriaMetrics - 與 Prometheus 兼容的快速，可擴展的開源 TSDB，包括單節點和群集版本。

Actian SQL for Hadoop - 高性能交互式 SQL，可以利用它訪問 Hadoop 上的數據。

Apache Drill - 一個低延遲的分布式海量數據交互式查詢引擎，使用 ANSI SQL 兼容語法，本質上是一個分布式的 MPP 查詢層。目的在於支持更廣泛的數據源，數據格式，以及查詢語言。受 Google的Dremel 啟發。

Apache HCatalog - Hadoop的表存儲管理工具。

Apache Hive - 基於 Hadoop 的一個數據倉庫工具，可以將結構化數據文件映射為一張資料庫表，並提供類 SQL 查詢功能.

Apache Calcite - 一款開源 SQL 解析工具, 可以將各種 SQL 語句解析成抽象語法術AST(Abstract Syntax Tree), 之後通過操作 AST 就可以把 SQL 中所要表達的算法與關係體現在具體代碼之中。

Apache Phoenix - 構建在 HBase 之上的關係型資料庫層，可以對 HBase 中的數據進行低延遲訪問。

Aster Database - 類 SQL 分析處理。

Cloudera Impala - 實時交互 SQL 大數據查詢工具，受 Dremel 啟發。

Concurrent Lingual - Cascading 上的 SQL 查詢語言。

Datasalt Splout SQL - 針對大數據集的完整 SQL 查詢引擎。

Facebook PrestoDB -分布式 SQL 查詢引擎。

Google BigQuery - Google 推出的一項 Web 服務，該服務讓開發者可以使用 Google 的架構來運行 SQL 語句對超級大的資料庫進行操作，是 Dremel 的實現。

PipelineDB - 一個開源的關係資料庫，它可以在實時流數據上執行 SQL 查詢，並將結果增量地存儲在表中。

Pivotal HDB - Hadoop 上的類 SQL 數據倉庫系統。/li>

RainstorDB - 用於存儲 PB 級結構化和半結構化數據量的資料庫。

Spark Catalyst - Apache Spark 的查詢優化框架。

SparkSQL - 使用 Spark 操作結構化的數據。

Splice Machine - 兼具了 SQL 和 NoSQL 的各自優勢，且能對操作型和分析型應用進行實時處理，具有 ACID 特性。

Stinger - 由 Hortonworks 開發的一個徹底提升 Hive 效率的工具

Tajo - Hadoop 之上的分布式數據倉庫系統。

Trafodion - 由惠普開發並開源的基於 Hadoop 平臺的事務資料庫引擎。提供了一個基於 Hadoop 平臺的交易型 SQL 引擎，是一個擅長處理交易型負載的 Hadoop 大數據解決方案。

Amazon Kinesis - 一種在 AWS 上流式處理數據的平臺,讓您可以輕鬆地加載和分析流數據,同時還可讓您根據具體需求來構建自定義流數據應用程式。

Amazon Web Services Glue - 一項完全託管的提取、轉換和加載 (ETL) 服務，讓用戶能夠輕鬆準備和加載數據進行分析。

Apache Chukwa - 數據採集系統。

Apache Flume - 一個分布式的、可靠的、易用的系統,可以有效地將來自很多不同源系統的大量日誌數據收集、匯總或者轉移到一個數據中心存儲。

Apache Kafka - 分布式發布訂閱消息系統。

Apache NiFi - 一個易用、強大、可靠的數據處理與分發系統

Apache Sqoop - 是一款開源的工具，主要用於在 Hadoop/Hive 與傳統的資料庫(Mysql、Oracle...)間進行數據的傳遞

Cloudera Morphlines - 幫助將 ETL 的數據加載到 Solr、HBase 或 Hadoop 中的框架。

Embulk - 開源的批量數據加載器，幫助在各種資料庫、存儲、文件格式和雲服務之間傳輸數據。

Facebook Scribe - 流日誌數據聚合器。

Fluentd - 用於收集事件和日誌的工具。

Google Photon - 地理分布式系統，用於實時連接多個連續流動的數據流，具有高可伸縮性和低延遲。

Heka - 開源流處理系統。

HIHO - 用於將不同數據源的數據和 Hadoop 進行連接的框架。

Kestrel - 分布式消息隊列系統。

LinkedIn Databus - LinkedIn 開源的一個低延遲、可靠的、支持事務的、保持一致性的數據變更抓取系統。

LinkedIn Kamikaze - 一種實用工具包，對 document lists 提供一系列的實現。

LinkedIn White Elephant - 一個 Hadoop 日誌收集器和展示器，它提供了用戶角度的Hadoop集群可視化。

Logstash - 一個開源的日誌收集管理工具，可以採集來自不同數據源的數據,並對數據進行處理後輸出到多種輸出源。

Netflix Suro - Netflix 開源的一款工具，它能夠在數據被發送到不同的數據平臺(如Hadoop、Elasticsearch)之前，收集不同應用伺服器上的事件數據。

Pinterest Secor - 實現 Kafka 日誌持久性的服務

Linkedin Gobblin -一套分布式數據集成框架，旨在簡化大數據集成工作當中的各類常見任務，具體包括數據流與批量生態系統的提取、複製、組織與生命周期管理。

Skizze - 一種概率數據結構服務和存儲。

StreamSets Data Collector - 使用一個簡單的 IDE 來連續大數據攝取基礎設施。

Yahoo Pulsar - 由 Yahoo 開發並開源的一個企業級的發布訂閱消息系統。

Alooma - 實時的數據管道服務，支持將 MySQL 等數據源的數據移動到數據倉庫中。

Akka Toolkit - 基於 Actor 模型，提供了一個用於構建可擴展的(Scalable)、彈性的(Resilient)、快速響應的(Responsive)應用程式的平臺。

Apache Avro - 數據序列化系統。

Apache Curator - 為 Apache ZooKeeper 開發的類庫。

Apache Karaf - Apache 旗下的一個開源項目，同時也是一個基於 OSGi 的運行環境，Karaf 提供了一個輕量級的 OSGi 容器,可以用於部署各種組件,應用程式。

Apache Thrift - Facebook 開源的跨語言的 RPC 通信框架

Apache Zookeeper - 一個分布式應用程式協調服務。

Google Chubby - 一個分布式鎖服務，Chubby 底層一致性實現就是以 Paxos 為基礎的

Hydrosphere Mist - 一個將 Apache Spark 分析任務和機器學習模型轉換為實時、批處理或反應性 web 服務的服務。

Linkedin Norbert - 集群管理系統。

Mara - 一個輕量級的自定義ETL框架。

OpenMPI - 消息傳遞框架。

Serf - 去中心化的服務發現和編排解決方案。

Spotify Luigi - 用於構建批處理作業的複雜管道的 Python 包。它處理依賴項解析、工作流管理、可視化、處理故障、命令行集成等等。

Spring XD - 用於數據攝取、實時分析、批處理和數據導出的分布式和可擴展系統。

Twitter Elephant Bird - 用於處理 lzop 壓縮數據的庫。

Twitter Finagle - JVM的異步網絡堆棧。

Azure ML Studio - 基於雲的 R、Python 機器學習平臺。

brain - JavaScript 中的神經網絡。

Cloudera Oryx - 實時大規模機器學習。

Concurrent Pattern - Cascading 上的機器學習框架。

convnetjs - Javascript 中的深入學習，可以在瀏覽器中訓練卷積神經網絡(或普通神經網絡)。

DataVec - 一個用於 Java 和 Scala 深度學習的矢量化和數據預處理庫。Deeplearning4j生態系統的一部分。

Deeplearning4j - 美國 AI 創業公司 Skymind 開源並維護的一個基於 Java/JVM 的深度學習框架，可使用CPU或GPU運行。

Decider - Ruby中靈活且可擴展的機器學習。

ENCOG - 支持多種高級算法的機器學習框架，以及支持規範化和處理數據的類。

etcML - 在線免費文本分析工具是由美國的史丹福大學計算機教授開發的基於成熟的文本分析引擎

Etsy Conjecture - Scalding 中可擴展的機器學習。

Feast - 用於管理、發現和訪問機器學習特性的特性存儲庫。Feast 為模型訓練和模型服務提供了一致的特徵數據視圖。

GraphLab Create - Python 中的機器學習平臺，包含大量 ML 工具包、數據工程和部署工具。

H2O - 使用 Hadoop、R 和 Python 進行統計、機器學習和數學運行時。

Keras - 一個高層神經網絡API，Keras 由純 Python 編寫而成並基 Tensorflow、Theano 以及 CNTK 後端。受 Torch 啟發。

Lambdo 是一個工作流引擎，通過將一個分析管道(i)特徵工程和機器學習(ii)模型訓練和預測(iii)結合起來，通過用戶定義(Python)函數實現表填充和列評估，大大簡化了數據處理和分析。

Mahout - 是 Apache Software Foundation(ASF) 旗下的一個開源項目,提供一些可擴展的機器學習領域經典算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程式。

MLbase - 是Spark生態圈的一部分,專注於機器學習,包含三個組件:MLlib、MLI、ML Optimizer。

MLPNeuralNet - 一個針對 iOS 和 Mac OS 系統的快速多層感知神經網絡庫，可通過已訓練的神經網絡預測新實例。

MOA - 實時進行大數據流挖掘和大規模機器學習。

MonkeyLearn - 讓文本挖掘變得很容易，可以從文本中提取和分類數據。

ND4J - JVM 的矩陣庫，可以認為是 Java 中的 Numpy。

nupic - 一個實現了HTM學習算法的機器智能平臺。

PredictionIO - 面向開發人員和數據科學家的開源機器學習服務，構建在 Hadoop, Mahout 和 Cascading 之上。

RL4J - 一個與 Deeplearning4j 集成的強化學習框架

SAMOA - 分布式流數據機器學習框架。

scikit-learn - 專門面向機器學習的 Python 開源框架，實現了各種成熟的算法。

Spark MLlib - 使用 Spark 實現一些常見的機器學習算法和實用程序,包括分類、回歸、聚類、協同過濾、降維以及底層優化,

Sibyl - 谷歌大型機器學習系統.

TensorFlow - 一個採用數據流圖(data flow graphs)，用於數值計算的開源軟體庫。

Theano - 蒙特婁大學支持的以 Python 為核心的機器學習類庫。

Torch - 是一個基於 BSD License 的開源的機器學習的框架

Velox - 服務於機器學習預測的系統。

Vowpal Wabbit - 由微軟和雅虎贊助的學習系統。

WEKA - 一套機器學習軟體。

BidMach - CPU 和 GPU 加速庫的機器學習庫。

Benchmarking

Apache Hadoop Benchmarking - 測試 Hadoop 性能的微基準測試。

Berkeley SWIM Benchmark - 真實大數據工作負載基準。

Intel HiBench - Hadoop 基準套件。

PUMA Benchmarking - MapReduce 應用程式的基準測試套件。

Yahoo Gridmix3 - 來自 Yahoo 工程師團隊的 Hadoop 集群基準測試。

Deeplearning4j Benchmarks

Apache Ambari - 一個集中部署、管理、監控Hadoop 分布式集群的工具。

Apache Bigtop - 一個針對基礎設施工程師和數據科學家的開源項目，旨在全面打包、測試和配置領先的開源大數據組件/項目，包括但不限於 Hadoop、HBase 和 Spark 。

Apache Helix - 集群管理框架。

Apache Mesos - 一個類似於 YARN 的集群管理器，提供了有效的、跨分布式應用或框架的資源隔離和共享，可以運行 Hadoop、MPI、Hypertable、Spark。

Apache Slider - 是一個 YARN 應用程式，用於在 YARN 上部署現有的分布式應用程式。

Apache Whirr - 運行雲服務的一組 Java 類庫。

Apache YARN - 集群管理系統。

Brooklyn - 簡化應用程式部署和管理的庫。

Buildoop - 類似於 Apache BigTop，基於 Groovy 語言開發。

Cloudera HUE - 用於與 Hadoop 交互的 web 應用程式。

Facebook Prism - 多數據中心複製系統。

Google Borg - Google 的內部大型集群管理系統。

Google Omega - Google 內部第三代的集群管理框架。

Hortonworks HOYA - 可以在 YARN 上部署 HBase 集群的應用程式。

Kubernetes - Google 團隊發起並維護的基於 Docker 的開源容器集群管理系統。

Marathon - 一個 Mesos 框架，能夠支持運行長服務。

411 - 一個警報管理Web應用程式。

Adobe spindle - 使用 Scala、Spark 和 Parquet 進行 web 分析的下一代系統。

Apache Kiji - 基於 HBase 的實時數據採集與分析框架。

Apache Metron - 一種多功能的安全遙測數據捕獲、流分析和威脅響應平臺，代表了安全數據平臺的最新發展水平。

Apache Nutch - 開源 web 爬蟲程序。

Apache OODT - NASA 開源的用於做數據管理的系統。

Apache Tika - 使用 Java 編寫的內容檢測和分析框架。

Argus - 時序監控報警平臺。

AthenaX - 一個流分析平臺，允許用戶使用結構化查詢語言(SQL)運行生產質量的大規模流分析。

Atlas - 用於管理維度時間序列數據的系統。

Countly - 基於 Node.js 和 MongoDB 的開源移動和 web 分析平臺。

Domino - 運行、擴展、共享和部署模型——不需要任何基礎設施。

Eclipse BIRT - 基於 Eclipse 的報告系統。

ElastAert - 為 ES 打造的報警監控工具。

Eventhub - 開源事件分析平臺。

Hermes - 構建在 Kafka 之上的異步消息代理。

HIPI Library - 使用 Hadoop 的 MapReduce 來執行圖像處理任務的API。

Hunk - Hadoop 的分析工具。

Imhotep - 大型分析平臺。

Jupyter - 基於網頁的用於交互計算的應用程式。其可被應用於全過程計算：開發、文檔編寫、運行代碼和展示結果。

MADlib - RDBMS 的數據處理庫，用於分析數據。

Kapacitor - 用於對時間序列數據進行處理、監視和警報的開源框架。

Kylin - 一個開源的分布式分析引擎，提供 Hadoop/Spark 之上的 SQL 查詢接口及多維分析（OLAP）能力以支持超大規模數據，最初由 eBay Inc. 開發並貢獻至開源社區，能在亞秒內查詢巨大的Hive表。

PivotalR - 支持在 Pivotal HD / HAWQ 以及 PostgreSQL 上運行 R。

Rakam - 開源實時自定義分析平臺，由 Postgresql, Kinesis 和 PrestoDB 提供支持。

Qubole - 能夠自動擴展 Hadoop 集群以及內置的連結器。

Sense - 數據科學和大數據分析的雲平臺。

SnappyData - 一個統一 OLTP+OLAP +流式寫入的內存分布式資料庫。

Snowplow - 由 Hadoop，Kinesis，Redshift 和 Postgres 支持的企業級 Web 和事件分析。

SparkR - 用於 Spark 的 R 前端。

Splunk - 一款成熟的商業化日誌處理分析產品。

Sumo Logic - 基於雲的日誌處理分析產品。

Talend - YARN、Hadoop、HBASE、Hive、HCatalog 和 Pig 的統一開源環境。

Warp - 大數據示例查詢工具(OS X 應用)

Apache Lucene - 一套用於全文檢索和搜索的開放源碼程序庫

Apache Solr - 是 Apache Lucene 項目的開源企業搜索平臺。其主要功能包括全文檢索、命中標示、分面搜索、動態聚類、資料庫集成，以及富文本（如Word、PDF）的處理。

Elassandra - 是 ElasticSearch 的一個分支，經過修改，可以作為 Apache Cassandra 的插件運行，具有可擴展和靈活的點對點架構。

ElasticSearch - 一個基於 Lucene 庫的搜尋引擎。它提供了一個分布式、支持多租戶的全文搜尋引擎，具有 HTTP Web 接口和無模式 JSON 文檔。

Enigma.io – 免費增值的 Web 應用程式，用於對 Web 上抓取的海量數據集進行瀏覽，過濾，分析，搜索和導出。

Facebook Unicorn - 社交圖搜索平臺.

Google Caffeine - 一個高性能、出色的緩存類庫。

Google Percolator - 由 Google 公司開發的、為大數據集群進行增量處理更新的系統，主要用於 google 網頁搜索索引服務。

TeraGoogle - 大型搜索索引。

HBase Coprocessor - HBase 的協處理器，Percolator 的實現。

Lily HBase Indexer - 一款快速、簡單的 HBase 的內容檢索方案，它可以幫助你在 Solr 中建立 HBase 的數據索引，從而通過 Solr 進行數據檢索。

LinkedIn Bobo - 完全用 Java 編寫的 Faceted Search 實現，是 Apache Lucene 的擴展。

LinkedIn Cleo -一個靈活的軟體庫，用於處理一些預輸入和自動完成的搜索功能。

LinkedIn Galene - LinkedIn 的搜索架構。

LinkedIn Zoie - 一個用 Java 編寫的實時搜索/索引系統。

MG4J - MG4J (Managing Gigabytes for Java) 是一個用 Java 編寫的大型文檔集合的全文搜尋引擎，它是高度可定製的，高性能的，並提供了最先進的功能和新的研究算法。

Sphinx Search Server - 全文搜尋引擎。

Vespa - 在大型數據集上進行低延遲計算的引擎。它存儲和索引數據，以便可以在服務時執行對數據的查詢，選擇和處理。

Airpal - PrestoDB 的 Web UI。

AnyChart - 一套靈活的 JavaScript (HTML5) 庫，可滿足您的所有數據可視化需求。

Arbor - 一個使用 web workers 和 jQuery 創建的圖可視化庫。

Banana - 可視化存儲在 Solr 中的日誌和帶時間戳的數據，是 Kibana 的一部分。

Bloomery - Impala 的 Web UI。

Bokeh - 一個 Python 交互式可視化庫，支持現代化 Web 瀏覽器，提供非常完美的展示功能。

C3 - 基於 D3 的可重用圖表庫

CartoDB - 開源的雲上地理空間資料庫，允許存儲和可視化 web 上的數據。使用 CartoDB 可以快速創建基於地圖的可視化效果。

chartd - 響應式、視網膜兼容圖表，僅需要一個 img 標籤。

Chart.js - 一套開源、簡單、乾淨並且有吸引力的基於 HTML5 技術的 JavaScript 圖表工具。

Chartist.js - 非常簡單而且實用的 JavaScript 前端圖表生成器。

Crossfilter - 一個 JavaScript 庫，用於在 JavaScript 中製作交互式的儀錶板，可以與 dc.js 、d3.js 一起工作。

Cubism - 用於時間序列可視化的 JavaScript 庫。

Cytoscape - 一個專注於網絡可視化和分析的開源軟體。

DC.js - 一個用於網頁作圖、生成互動圖形的 JavaScript 函數庫。

D3 - 目前最流行的數據可視化庫之一，小型，靈活，高效的數據可視化庫，用來創建和操作基於數據的交互式文檔。

D3.compose - 由可重複使用的圖表和組件組成複雜的、數據驅動的可視化文件。

D3Plus - d3.js 的一組相當強大的可重用圖表和樣式。

DevExtreme React Chart - 基於高性能插件的 React 圖表，用於 Bootstrap 和 Material Design。

Echarts - 一款由百度前端技術部開發的，基於Javascript 的數據可視化圖表庫，提供直觀，生動，可交互，可個性化定製的數據可視化圖表。

Envisionjs - 一個基於 HTML5 技術的數據可視化庫

FnordMetric - 一個開源的 Web 應用，可用於創建實時儀錶板，方便可視化任何數據。

Frappe Charts - 一個受 Github 啟發的輕量級 SVG 圖表庫，它不依賴任何類庫和框架。

Freeboard - 讓用戶創建他們自己的用來監控物聯網部署的儀錶盤，該代碼在 GitHub上免費提供，你可以通過這些儀錶板展示跟蹤空氣品質、住宅電器、釀酒情況和實時環境條件變化。

Gephi - 一款開源免費跨平臺基於 JVM 的網絡分析領域的數據可視化處理軟體

Google Charts - 一種交互式 Web 服務，可根據用戶提供的數據創建圖形圖表

Grafana - 一個跨平臺的開源的度量分析和可視化工具，可以通過將採集的數據查詢然後可視化的展示，並及時通知。

Graphite - 一款開源的監控繪圖工具。

Highcharts - 兼容 IE6+、完美支持移動端、圖表類型豐富、方便快捷的 HTML5 交互性圖表庫。

IPython - 一種基於 Python 的交互式解釋器。相較於原生的 Python Shell，IPython 提供了更為強大的編輯和交互功能。

Kibana - Elasticsearch 的開源數據可視化插件。

Lumify - 開源大數據分析可視化平臺。

Matplotlib - Python 程式語言及其數值數學擴展包 NumPy 的可視化操作界面。

Metricsgraphic.js - 一個建立在 D3 基礎上，為可視化和時間序列化的數據而優化的庫。

NVD3 - d3.js 的圖表組件。

Peity - 漸進式 SVG 條形圖，折線圖和餅圖。

Plot.ly - Plotly 為個人和協作提供在線圖形，分析和統計工具，以及 Python，R，MATLAB，Perl，Julia，Arduino 和 REST 的科學圖形庫。

Plotly.js 一個開源的交互式 JavaScript 圖形庫，建立在 d3.js 和 webgl 之上，並支持 20 多種類型的交互式圖表。

Recline - 簡單而強大的庫，可以使用純 Javascript 和 HTML 構建數據應用程式。

Redash - 查詢和可視化數據的開源平臺。

ReCharts - 一個基於React組件的可組合圖表庫。

Shiny - R 的 Web 應用程式框架。

Sigma.js - 專門用於圖形繪製的 JavaScript 庫。

Superset - 由 Airbnb 開發並開源一個數據探索和可視化平臺，設計用來提供直觀的，可視化的，交互式的分析體驗。

Vega - 一個可視化的語法。

Zeppelin - 一個基於 Web 的 notebook，提供交互數據分析和可視化。

Zing Charts - 一個功能強大的 JavaScript 圖表。

史上最全的大數據學習資源(Awesome Big Data)

相關焦點

Big data 大數據 | 地道英語

【入門必備】史上最全的深度學習資源匯總,速藏!

大數據學習資源之DataCamp

英語流行語:「大數據 big data」英文怎麼說?

【TD精選】學習數據科學的102個資源

史上最全「大數據」學習資源整理

這是一份超全機器學習&深度學習資源清單(105個AI站點),請收藏!

【網站/資源】最全數據挖掘目錄,幫你輕鬆找到統計數據

這是一份超全機器學習&深度學習網站資源清單(105個AI站點),請收藏!

英國留學之大數據Big Data專業解讀

乾貨丨史上最全大數據學習資源整理

MBA智庫:大數據(big data)

命中率百分之百的Big Data資料大全

大家常說的「Big Data」,究竟能幹啥?丨BBC聽英語

華為大數據認證HCNA-Big data和HCNP-Big data V1.0中文版預發布通知

IoT 、big data and data analytics 、E-commerce

可能是史上最全的Tensorflow學習資源匯總

一份數據工程師必備的學習資源,乾貨滿滿

awesome-adversarial-machine-learning資源列表

kaggle、TDS、arXiv等,我最喜歡的數據科學資源