开源大数据处理赏罚器材汇总（上）

发布时间：2020-12-29 01:14:49 所属栏目：大数据来源：网络整理

导读：查询引擎一、Phoenix 孝顺者：：Salesforce 简介：这是一个Java中间层，可以闪开拓者在Apache HBase上执行SQL查询。Phoenix完全行使Java编写，代码位于GitHub上，而且提供了一个客户端可嵌入的JDBC驱动。 Phoenix查询引擎会将SQL查询转换为一个或多个HBase

查询引擎

一、Phoenix

孝顺者：：Salesforce

简介：这是一个Java中间层，可以闪开拓者在Apache HBase上执行SQL查询。Phoenix完全行使Java编写，代码位于GitHub上，而且提供了一个客户端可嵌入的JDBC驱动。

Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以天生尺度的JDBC功效集。直接行使HBase API、协同处理赏罚器与自界说过滤器，对付简朴查询来说，其机能量级是毫秒，对付百万级此生手数来说，其机能量级是秒。

Phoenix最值得存眷的一些特征有：

?嵌入式的JDBC驱动，实现了大部门的java.sql接口，包罗元数据API
?可以通过多部行键或是键/值单位对罗列办建模
?完美的查询支持，可以行使多个谓词以及优化的扫描键
?DDL支持：通过CREATE TABLE、DROP TABLE及ALTER TABLE来添加/删除列
?版本化的模式客栈：当写入数据时，快照查询会行使适当的模式
?DML支持：用于逐行插入的UPSERT VALUES、用于沟通或差异表之间大量数据传输的UPSERT ?SELECT、用于删除行的DELETE
?通过客户端的批处理赏罚实现的有限的事宜支持
?单表——还没有毗连，同时二级索引也在开拓傍边
?紧跟ANSI SQL尺度

Phoenix官方网站>>>

孝顺者：：Hortonworks

简介：原叫Tez，下一代Hive,Hortonworks主导开拓，运行在YARN上的DAG计较框架。

某些测试下，Stinger能晋升10倍阁下的机能，同时会让Hive支持更多的SQL，其首要利益包罗：

?让用户在Hadoop得到更多的查询匹配。个中包罗相同OVER的字句说明成果，支持WHERE查询，让Hive的样式体系更切合SQL模子。

?优化了Hive哀求执行打算，优化后哀求时刻镌汰90%。窜改了Hive执行引擎，增进单Hive使命的被秒处理赏罚记录数。

?在Hive社区中引入了新的列式文件名目（如ORC文件），提供一种更当代、高效和高机能的方法来储存Hive数据。

?引入了新的运行时框架——Tez，旨在消除Hive的延时和吞吐量限定。Tez通过消除不须要的task、障碍同步和对HDFS的读写功课来优化Hive job。这将优化Hadoop内部的执行链，彻底加快Hive负载处理赏罚。

Stinger官方网站>>>

三、Presto

孝顺者：：Facebook

简介：Facebook开源的数据查询引擎Presto ，可对250PB以上的数据举办快速地交互式说明。该项目始于 2012 年秋季开始开拓，今朝该项目已经在高出 1000 名 Facebook 雇员中行使，运行高出 30000 个查询，逐日数据在 1PB 级别。Facebook 称 Presto 的机能比诸如 Hive 和 Map*Reduce 要好上 10 倍有多。

Presto 当前支持 ANSI SQL 的大大都殊效，包罗连系查询、阁下联接、子查询以及一些聚合和计较函数；支持近似截然差异的计数(DISTINCT COUNT)等。

github源代码下载>>>

简介：Shark即Hive on Spark，本质上是通过Hive的HQL理会，把HQL翻译成Spark上的RDD操纵，然后通过Hive的metadata获取数据库里的表信息，现实HDFS上的数据和文件，会由Shark获取并放到Spark上运算。Shark的特点就是快，完全兼容Hive，且可以在shell模式下行使rdd2sql()这样的API，把HQL获得的功效集，继承在scala情形下运算，支持本身编写简朴的呆板进修或简朴说明处理赏罚函数，对HQL功效进一步说明计较。

?Shark速率快的缘故起因除了Spark平台提供的基于内存迭代计较外，在计划上还存在对Spark长举办了必然的改革，首要有

?partial DAG execution：对join优化，调理并行粒度，由于Spark自己的宽依靠和窄依靠会影响并行计较和速率

基于列的压缩和存储：把HQL表数据按列存，每列是一个array，存在JVM上，停止了JVM GC低效，而压缩息争压相干的技能是Yahoo!提供的。

结来说，Shark是一个插件式的对象，在我现有的Spark和Hive及hadoop-client之间，在这两套都可用的环境下，Shark只要获取Hive的设置（尚有metastore和exec等要害包），Spark的路径，Shark就能操作Hive和Spark，把HQL理会成RDD的转换，把数据取到Spark上运算和说明。在SQL on Hadoop这块，Shark有别于Impala，Stringer，而这些体系各有本身的计划思绪，相对付对MR举办优化和改造的思绪，Shark的思绪越发简朴明白些。

Shark官方网站>>>

简介：Pig是一种编程说话，它简化了Hadoop常见的事变使命。Pig可加载数据、表达转换数据以及存储最终功效。Pig内置的操纵使得半布局化数据变得故意义（如日记文件）。同时Pig可扩展行使Java中添加的自界说数据范例并支持数据转换。

Pig最大的浸染就是对mapreduce算法(框架)实现了一套shell剧本，相同我们凡是认识的SQL语句，在Pig中称之为Pig Latin，在这套剧本中我们可以对加载出来的数据举办排序、过滤、求和、分组(group by)、关联(Joining)，Pig也可以由用户自界说一些函数对数据集举办操纵，也就是传说中的UDF(user-defined functions)。

Pig官方网站>>>

孝顺者：:Cloudera

简介：Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速，交互式的SQL查询。除了行使沟通的存储平台外， Impala和Apache Hive一样也行使了沟通的元数据，SQL语法（Hive SQL），ODBC驱动和用户接口（Hue Beeswax），这就很利便的为用户提供了一个相似而且同一的平台来举办批量或及时查询。

Cloudera Impala 是用来举办大数据查询的增补器材。 Impala 并没有代替像Hive这样基于MapReduce的漫衍式处理赏罚框架。Hive和其余基于MapReduce的计较框架很是得当长时刻运行的批处理赏罚功课，譬喻那些涉及到批量 Extract、Transform、Load ，即必要举办ETL功课。

Impala 提供了：

?数据科学家或数据说明师已经熟知的SQL接口

?可以或许在Apache Hadoop 的大数据中举办交互式数据查询

? Single system for big data processing and analytics so customers can avoid costly modeling and ETL just for analytics

Cloudera?Impala官方网站>>>

七、Apache?Drill

孝顺者：：MapR

简介：Apache Drill是是一个可以或许对大数据举办交互说明、开源的漫衍式体系，且基于Google Dremel实现，它可以或许运行在上千个节点的处事器集群上，且能在几秒内处理赏罚PB级可能万亿条的数据记录。Drill可以或许辅佐企业用户快速、高效地举办Hadoop数据查询和企业级大数据说明。Drill于2012年8月份由Apache推出。

从Drill官方对其架构的先容中得知，其具有适于及时的说明和快速的应用开拓、适于半布局化/嵌套数据的说明、兼容现有的SQL情形和Apache Hive等特性。其它，Drill的焦点模块是Drillbit处事，该处事模块包罗长途会见子模块、SQL理会器、查询优化器、使命打算执行引擎、存储插件接口（DFS、HBase、Hive等的接口）、漫衍式缓存模块等几部门，如下图所示：

Apache?Drill官方网站>>>

简介：Apache Tajo项目标目标是在HDFS之上构建一个先辈的数据客栈体系。Tajo将本身标榜为一个“大数据客栈”，可是它仿佛和之前先容的那些低耽误查询引擎相同。固然它支持外部表和Hive数据集（通过HCatalog），可是它的重点是数据打点，提供低耽误的数据会见，以及为更传统的ETL提供器材。它也必要在数据节点上陈设Tajo特定的事变历程。

Tajo的成果包罗：

?ANSI SQL兼容
?JDBC 驱动
?集成Hive metastore可以或许会见Hive数据集
?一个呼吁行客户端
?一个自界说函数API

Apache?Tajo官方网站>>>

简介：hive是基于Hadoop的一个数据客栈器材，可以将布局化的数据文件映射为一张数据库表，并提供简朴的sql查询成果，可以将sql语句转换为MapReduce使命举办运行。其利益是进修本钱低，可以通过类SQL语句快速实现简朴的MapReduce统计，不必开拓专门的MapReduce应用，异常得当数据客栈的统计说明。

Hive官方网站>>>

流式计较

孝顺者：Facebook

简介：及时数据流说明

孝顺者：Twitter

简介：Rainbird一款基于Zookeeper,Cassandra,Scribe,Thrift的漫衍式及时统计体系，这些基本组件的根基成果如下：

? Zookeeper，Hadoop子项目中的一款漫衍式和谐体系，用于节制漫衍式体系中各个组件中的同等性。

?Cassandra，NoSQL中一款很是精彩的产物，荟萃了Dynamo和Bigtable特征的漫衍式存储体系，用于存储必要举办统计的数据，统计数据，而且提供客户端举办统计数据的查询。（必要行使漫衍式Counter补丁CASSANDRA-1072）

??Scribe，Facebook开源的一款漫衍式日记网络体系，用于在体系中将各个必要统计的数据源网络到Cassandra中。

??Thrift，Facebook开源的一款跨说话C/S收集通讯框架，开拓职员基于这个框架可以等闲地开拓C/S应用。

用处

Rainbird可以用于及时数据的统计：

?统计网站中每一个页面，域名的点击次数

?内部体系的运行监控（统计被监控处事器的运行状态）

?记录最大值和最小值

孝顺者：Yahoo

简介：S4（Simple Scalable Streaming System）最初是Yahoo!为进步搜刮告白有用点击率的题目而开拓的一个平台，通过统计说明用户对告白的点击率，解除相干度低的告白，晋升点击率。今朝该项目刚启动不久，以是也可以领略为是他们提出的一个漫衍式流计较（Distributed Stream Computing）的模子。

S4的计划方针是：

·提供一种简朴的编程接口来处理赏罚数据流

·计一律个可以在平凡硬件之上可扩展的高可用集群。

·通过在每个处理赏罚节点行使当地内存，停止磁盘I/O瓶颈到达最小化耽误

·行使一个去中心的，对等架构；全部节点提供沟通的成果和职责。没有担负非凡责任的中心节点。这大大简化了陈设和维护。

·行使可插拔的架构，使计划尽也许的即通用又可定制化。

·友爱的计划理念，易于编程，具有机动的弹性

Yahoo S4官方网站>>>

孝顺者：Twitter

简介：Storm是Twitter开源的一个相同于Hadoop的及时数据处理赏罚框架，它原本是由BackType开拓，后BackType被Twitter收购，将Storm作为Twitter的及时数据说明体系。

及时数据处理赏罚的应用场景很普及，譬喻商品保举，告白投放，它能按照当前景象上下文（用户偏好，地理位置，已产生的查询和点击等）来预计用户点击的也许性并及时做出调解。

storm的三大浸染规模：

1.信息流处理赏罚（Stream Processing）

Storm可以用来及时处理赏罚新数据和更新数据库，兼具容错性和可扩展性,它可以用来处理赏罚绵绵不断的动静，并将处理赏罚之后的功效生涯到耐久化介质中。

2.持续计较（Continuous Computation）

Storm可以举办持续查询并把功效即时反馈给客户，好比将Twitter上的热点话题发送到客户端。

3.漫衍式长途进程挪用（Distributed RPC）

除此之外，Storm也被普及用于以下方面：

准确的告白推送
及时日记的处理赏罚

Twitter?Storm官方网站>>>

迭代计较

简介：Apache Hama是一个纯BSP（Bulk Synchronous Parallel）计较框架，仿照了Google的Pregel。用来处理赏罚大局限的科学计较，出格是矩阵和图计较。

?成立在Hadoop上的漫衍式并行计较模子。

?基于 Map/Reduce 和 Bulk Synchronous 的实现框架。

?运行情形必要关联 Zookeeper、HBase、HDFS 组件。

Hama中有2个首要的模子:

– 矩阵计较(Matrix package)

– 面向图计较(Graph package)

Apache?Hama官方网站>>>

代码托管地点：?GitHub

简介：Apache Giraph是一个可伸缩的漫衍式迭代图处理赏罚体系，灵感来自BSP（bulk synchronous parallel）和Google的Pregel，与它们区别于则是是开源、基于 Hadoop 的架构等。

Giraph处理赏罚平台合用于运行大局限的逻辑计较，好比页面排行、共享链接、基于本性化排行等。Giraph专注于交际图计较，被Facebook作为其Open Graph器材的焦点，几分钟内处理赏罚数万亿次用户及其举动之间的毗连。

简介：迭代的MapReduce，HaLoop——合用于迭代计较的Hadoop 。

Hadoop与HaLoop的差异

与Hadoop较量的四点改变：

1.提供了一套新的编程接口，越发合用于迭代计较；

HaLoop给迭代计较一个抽象的递归公式：

2.HaLoop的master举办job内的轮回节制，直到迭代计较竣事；

3.Task Scheduler也举办了修改，使得使命可以或许只管满意data locality

4.slave nodes对数据举办cache并index索引，索引也以文件的情势生涯在当地磁盘。

HaLoop官网>>>

简介：Twister，迭代式MapReduce框架，Twister是由一个印度人开拓的，其架构如下：

在Twister中，大文件不会自动被切割成一个一个block，因而用户需提前把文件分成一个一个小文件，以供每个task处理赏罚。在map阶段，颠末map（）处理赏罚完的功效被放在漫衍式内存中，然后通过一个broker network（NaradaBroking体系）将数据push给各个reduce task（Twister假设内存足够大，中间数据可以所有放在内存中）；在reduce阶段，全部reduce task发生的功效通过一个combine操纵举办合并，此时，用户可以举办前提鉴定，确定迭代是否竣事。combine后的数据直接被送给map task，开始新一轮的迭代。为了进步容错性，Twister每隔一段时刻会将map task和reduce task发生的功效写到磁盘上，这样，一旦某个task失败，它可以从最近的备份中获取输入，从头计较。

为了停止每次迭代从头建设task，Twister维护了一个task pool，每次必要task时直接从pool中取。在Twister中，全部动静和数据都是通过broker network转达的，该broker network是一个独立的模块，今朝支持NaradaBroking和ActiveMQ。

离线计较

简介：MapReduce是一种编程模子，用于大局限数据集（大于1TB）的并行运算。观念”Map（映射）”和”Reduce（归约）”，和它们的首要头脑，都是从函数式编程说话里借来的，尚有从矢量编程说话里借来的特征。它极大处所便了编程职员在不会漫衍式并行编程的环境下，将本身的措施运行在漫衍式体系上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来担保全部映射的键值对中的每一个共享沟通的键组。

Hadoop?MapReduce官方网站>>>

简介：Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具有的利益；但差异于MapReduce的是Job中间输出功效可以生涯在内存中，从而不再必要读写HDFS，因此Spark能更好地合用于数据发掘与呆板进修等必要迭代的map reduce的算法。

简介：DataTorrent基于Hadoop 2.x构建，是一个及时的、有容错手段的数据流式处理赏罚和说明平台，它行使当地Hadoop应用措施，而这些应用措施可以与执行其余使命，如批处理赏罚，的应用措施共存。该平台的架构如下图所示：

相干文章：DataTorrent 1.0每秒处理赏罚高出10亿个及事势件

DataTorrent 将数据说明速率从“及时”晋升至“此刻时”

键值存储

孝顺者：Google

简介：Leveldb是一个google实现的很是高效的kv数据库，今朝的版本1.2可以或许支持billion级此外数据量了。在这个数目级别下尚有着很是高的机能，首要归功于它的精采的计划。出格是LMS算法。

LevelDB 是单历程的处事，机能很是之高，在一台4核Q6600的CPU呆板上，每秒钟写数据高出40w，而随机读的机能每秒钟高出10w。

此处随机读是完全掷中内存的速率，假如是不掷中速率大大降落。

LevelDB官方网站>>>

孝顺者：facebook

简介：RocksDB固然在代码层面上是在LevelDB原有的代码长举办开拓的，但却小心了Apache HBase的一些好的idea。在云计较横行的年月，启齿不离Hadoop，RocksDB也开始支持HDFS，应承从HDFS读取数据。RocksDB支持一次获取多个K-V，还支持Key范畴查找。LevelDB只能获取单个Key。

RocksDB除了简朴的Put、Delete操纵，还提供了一个Merge操纵，说是为了对多个Put操纵举办归并。

RocksDB提供一些利便的器材，这些器材包括理会sst文件中的K-V记录、理会MANIFEST文件的内容等。RocksDB支持多线程归并，而LevelDB是单线程归并的。

RocksDB官方网站>>>

孝顺者：Facebook

HyperDex是一个漫衍式、可搜刮的键值存储体系，特征如下：

漫衍式KV存储，体系机能可以或许随节点数量线性扩展
吞吐和延时都能秒杀此刻风头正劲的MonogDB，吞吐乃至强于Redis
行使了hyperspace hashing技能，使得对存储的K-V的恣意属性举办查询成为也许

官网：http://hyperdex.org/

日本人Mikio?Hirabayashi（平林干雄）开拓的一款DBM数据库。Tokyo Cabinet 是一个DBM的实现。这里的数据库由一系列key-value对的记录组成。key和value都可所以恣意长度的字节序列,既可所以二进制也可所以字符串。这里没稀有据范例和数据表的观念。当做为Hash表数据库行使时，每个key必需是差异的,因此无法存储两个key沟通的值。提供了以下会见要领:提供key,value参数来存储，按 key删除记录，按key来读取记录，其它，遍历key也被支持，固然次序是恣意的不能被担保。这些要领跟Unix尺度的DBM,譬喻GDBM,NDBM 等等是沟通的，可是比它们的机能要好得多（因此可以更换它们) 。下一代KV存储体系，支持strings、integers、floats、lists、maps和sets等富厚的数据范例。 TokyoCabinet官方网站>>> 五、Voldemort Voldemort是一个漫衍式键值存储体系，是Amazon’s Dynamo的一个开源克隆。特征如下：

支持自动复制数据到多个处事器上。
支持数据自动支解以是每个处事器只包括总数据的一个子集。
提供处事器妨碍透明处理赏罚成果。
支持可拨插的序化支持，以实现伟大的键-值存储，它可以或许很好的5.集成常用的序化框架如：Protocol Buffers、Thrift、Avro和Java Serialization。
数据项都被标识版本可以或许在产生妨碍时只管保持数据的完备性而不会影响体系的可用性。
每个节点彼此独立，互不影响。
支持可插拔的数据安排计策

官网：http://project-voldemort.com/

六、Amazon?Dynamo 孝顺者：亚马逊简介：Amazon Dynamo 是一个经典的漫衍式Key-Value 存储体系，具备去中心化，高可用性，高扩展性的特点，可是为了到达这个方针在许多场景中捐躯了同等性。Dynamo在Amazon中获得了乐成的应用，可以或许跨数据中心陈设于上万个结点上提供处事，它的计划头脑也被后续的很多漫衍式体系小心。如迩来火热的Cassandra，现实上就是根基照搬了Dynamo的P2P架构，同时融合了BigTable的数据模子及存储算法。 Amazon Dynamo官方网站>>> 七、Tair 孝顺者：淘宝简介：tair 是淘宝本身开拓的一个漫衍式 key/value 存储引擎. tair 分为耐久化和非耐久化两种行使方法. 非耐久化的 tair 可以当作是一个漫衍式缓存. 耐久化的 tair 将数据存放于磁盘中. 为了办理磁盘破坏导致数据丢失,tair 可以设置数据的备份数量,tair 自动将一份数据的差异备份放到差异的主机上,当有主机产生非常,无法正常提供处事的时辰,其于的备份会继承提供处事. tair 的总体布局 tair 作为一个漫衍式体系,是由一此中心节制节点和一系列的处事节点构成. 我们称中心节制节点为config server. 处事节点是data server. config server 认真打点全部的data server,维护data server的状态信息. data server 对外提供各类数据处事,并以心跳的情势将自身状况讲述给config server. config server是节制点,并且是单点,今朝回收一主一备的情势来担保其靠得住性. 全部的 data server 职位都是等价的. 八、Apache?Accumulo Apache Accumulo 是一个靠得住的、可伸缩的、高机能的排序漫衍式的 Key-Value 存储办理方案，基于单位会见节制以及可定制的处事器端处理赏罚。Accumulo行使 Google BigTable 计划思绪，基于 Apache Hadoop、Zookeeper 和 Thrift 构建。 ? 官网： http://accumulo.apache.org/

Redis是一个高机能的key-value存储体系，和Memcached相同，它支持存储的value范例相对更多，包罗string（字符串）、list（链表）、set（荟萃）和zset（有序荟萃）。与memcached一样，为了担保服从，数据都是缓存在内存中，区此外是Redis会周期性的把更新的数据写入磁盘可能把修改操纵写入追加的记录文件，而且在此基本上实现了主从同步。

Redis的呈现，很洪流平赔偿了memcached这类key/value存储的不敷，在部门场所可以对相关数据库起到很好的增补浸染。它提供了Python、Ruby、Erlang、PHP客户端，行使很利便。

官网：http://redis.io/

表格存储

?一、OceanBase

孝顺者：阿里巴巴

相干文章：26页PPT解密支撑付出宝买卖营业的漫衍式数据库体系——OceanBase

简介：OceanBase是一个支持海量数据的高机能漫衍式数据库体系，实现了数千亿笔记录、数百TB数据上的跨行跨表事宜，由淘宝焦点体系研发部、运维、DBA、告白、应用研发等部分配合完成。在计划和实现OceanBase的时辰暂且摒弃了不紧张的DBMS的成果，譬喻姑且表，视图(view)，研发团队把有限的资源齐集到要害点上，当前 OceanBase首要办理数据更新同等性、高机能的跨表读事宜、范畴查询、join、数据全量及增量dump、批量数据导入。

今朝OceanBase已经应用于淘宝保藏夹，用于存储淘宝用户保藏条目和详细的商品、店肆信息，天天支持4～5万万的更新操纵。守候上线的应用还包罗CTU、SNS等，天天更新高出20亿，更新数据量高出2.5TB，并会慢慢在淘宝内部推广。

OceanBase 0.3.1在Github开源，开源版本为Revision:12336。

官网：http://alibaba.github.io/oceanbase/

孝顺者：亚马逊

Amazon SimpleDB是一个分手式数据库，以Erlang撰写。同与Amazon EC2和亚马逊的S3一样作为一项Web 处事，属于亚马逊收集处事的一部门。

正如EC2和S3，SimpleDB的凭证存储量，在互联网上的传输量和吞吐量收取用度。在2008年12月1日，亚马逊推出了新的订价计策，提供了免费1 GB的数据和25呆板小时的自由层(Free Tire)。将个中的数据转移到其他亚马逊收集处事是免费的。

它是一个可大局限伸缩、用 Erlang 编写的高可用数据存储。

官网：http://aws.amazon.com/cn/simpledb/

孝顺者：惠普

简介：惠普2011年2月份起始3月21号完成收购Vertica。Vertica基于列存储。基于列存储的计划对比传统面向行存储的数据库具有庞大的上风。同时Vertica支持MPP（massively parallel processing）等技能，查询数据时Vertica只需取得必要的列，而不是被选择行的全部数据，其均匀机能可进步50x-1000x倍。（查询机能高速率快）

Vertica的计划者多次暗示他们的产物环绕着高机能和高可用性计划。因为对MPP技能的支持，可提供对粒度，可伸缩性和可用性的上风。每个节点完全独立运作，完全无共享架构，低落对共享资源的体系竞争。

Vertica的数据库行使尺度的SQL查询，同时Vertica的架构很是得当云计较，包罗假造化，漫衍式多节点运行等，而且可以和Hadoop/MapReduce举办集成。

Vertica官网：http://www.vertica.com/

相干文章：开源漫衍式NoSQL数据库体系——Cassandra? ?Cassandra与HBase的大数据对决谁是胜者？

简介：Cassandra是一套开源漫衍式NoSQL数据库体系。它最初由Facebook开拓，用于储存收件箱等简朴名目数据，集GoogleBigTable的数据模子与Amazon Dynamo的完全漫衍式的架构于一身Facebook于2008将 Cassandra 开源，从此，因为Cassandra精采的可扩放性，被Digg、Twitter等知名Web 2.0网站所采用，成为了一种风行的漫衍式布局化数据存储方案。

Cassandra是一个殽杂型的非相关的数据库，相同于Google的BigTable。其首要成果比Dynamo （漫衍式的Key-Value存储体系）更富厚，但支持度却不如文档存储MongoDB（介于相关数据库和非相关数据库之间的开源产物，长短相关数据库傍边成果最富厚，最像相关数据库的。支持的数据布局很是疏松，是相同json的bjson名目，因此可以存储较量伟大的数据范例）。Cassandra最初由Facebook开拓，后转酿成了开源项目。它是一个收集交际云计较方面抱负的数据库。以Amazon专有的完全漫衍式的Dynamo为基本，团结了Google BigTable基于列族（Column Family）的数据模子。P2P去中心化的存储。许多方面都可以称之为Dynamo 2.0。

Cassandra官网：http://cassandra.apache.org/

简介：Hypertable是一个开源、高机能、可伸缩的数据库，它回收与Google的Bigtable相似的模子。在已往数年中，Google为在PC集群上运行的可伸缩计较基本办法计划制作了三个要害部门。

第一个要害的基本办法是Google File System（GFS），这是一个高可用的文件体系，提供了一个全局的定名空间。它通过跨呆板（和跨机架）的文件数据复制来到达高可用性，并因此免受传统文件存储体系无法停止的很多失败的影响，好比电源、内存和收集端口等失败。第二个基本办法是名为Map-Reduce的计较框架，它与GFS细密协作，帮助处理赏罚网络到的海量数据。第三个基本办法是Bigtable，它是传统数据库的更换。Bigtable让你可以通过一些主键来组织海量数据，并实现高效的查询。Hypertable是Bigtable的一个开源实现，而且按照我们的设法举办了一些改造。

HyperTable官网：http://hypertable.org/

简介：支持ACID事宜处理赏罚的NoSQL数据库，提供很是好的机能、数据同等性和操纵弹性。

2015年1月2日，FoundationDB已经宣布了其key-value数据库的3.0版本，首要专注于可伸缩性和机能上的改进。FoundationDB的CEO David Rosenthal在一篇博客上公布了新的版本，个中展示了FoundationDB 3.0在可伸缩性方面的数据，它可以在一个32位的c3.8xlarge EC2实例上每秒写入1440万次；这在机能上是之前版本的36倍。

除了机能和可伸缩性的改进之外，FoundationDB 3.0还包括了对监控支持的改进。这种监控机制不只仅是简朴的呆板搜查，它添加了对多种隐藏的硬件瓶颈的诊断，而且把那些高层级的信息整合到现有监控基本架构中。

官网：https://foundationdb.com/

孝顺者：?Fay Chang 所撰写的“Bigtable

简介：HBase是一个漫衍式的、面向列的开源数据库，该技能来历于 Fay Chang 所撰写的Google论文“Bigtable：一个布局化数据的漫衍式存储体系”。就像Bigtable操作了Google文件体系（File System）所提供的漫衍式数据存储一样，HBase在Hadoop之上提供了相同于Bigtable的手段。HBase是Apache的Hadoop项目标子项目。HBase差异于一样平常的相关数据库，它是一个得当于非布局化数据存储的数据库。另一个差异的是HBase基于列的而不是基于行的模式。

官网：http://hbase.apache.org/

文件存储

简介：CouchDB是用Erlang开拓的面向文档的数据库体系，最近方才宣布了1.0版本（2010年7月14日）。CouchDB不是一个传统的相关数据库，而是面向文档的数据库，其数据存储方法有点相同lucene的index文件名目，CouchDB最大的意义在于它是一个面向web应用的新一代存储体系，究竟上，CouchDB的标语就是：下一代的Web应用存储体系。

特点：

一、CouchDB是漫衍式的数据库，他可以把存储体系漫衍到n台物理的节点上面，而且很好的协协调同步节点之间的数据读写同等性。这虽然也得靠Erlang无与伦比的并发特征才气做到。对付基于web的大局限应用文档应用，漫衍式可以让它不必像传统的相关数据库那样分库拆表，在应用代码层举办大量的窜改。

二、CouchDB是面向文档的数据库，存储半布局化的数据，较量相同lucene的index布局，出格得当存储文档，因此很得当CMS，电话本，地点本等应用，在这些应用场所，文档数据库要比相关数据库越发利便，机能更好。

三、CouchDB支持REST API，可以让用户行使JavaScript来操纵CouchDB数据库，也可以用JavaScript编写查询语句，我们可以想像一下，用AJAX技能团结CouchDB开拓出来的CMS体系会是何等的简朴和利便。

着实CouchDB只是Erlang应用的冰山一角，在最近几年，基于Erlang的应用也获得的发达的成长，出格是在基于web的大局限，漫衍式应用规模，险些都是Erlang的上风项目。

官网：http://couchdb.apache.org/

简介：MongoDB 是一个基于漫衍式文件存储的数据库。由C++说话编写。旨在为WEB应用提供可扩展的高机能数据存储办理方案。

MongoDB是一个介于相关数据库和非相关数据库之间的产物，长短相关数据库傍边成果最富厚，最像相关数据库的。他支持的数据布局很是疏松，是相同json的bson名目，因此可以存储较量伟大的数据范例。Mongo最大的特点是他支持的查询说话很是强盛，其语法有点相同于面向工具的查询说话，险些可以实现相同相关数据库单表查询的绝大部门成果，并且还支持对数据成立索引。

相干文章：MongoDB的根基特征与内部结构??大数据吃香创业公司MongoDB估值达16亿美元

特点

它的特点是高机能、易陈设、易行使，存储数据很是利便。首要成果特征有：

*面向荟萃存储，易存储工具范例的数据。

mongodb集群参考

*模式自由。

*支持动态查询。

*支持完全索引，包括内部工具。

*支持查询。

*支持复制和妨碍规复。

*行使高效的二进制数据存储，包罗大型工具（如视频等）。

*自动处理赏罚碎片，以支持云计较条理的扩展性。

*支持RUBY，PYTHON，JAVA，C++，PHP，C#等多种说话。

*文件存储名目为BSON（一种JSON的扩展）。

*可通过收集会见。

官网：https://www.mongodb.org/

孝顺者：Haoyuan Li（李浩源）

简介：Tachyon是一个漫衍式内存文件体系，可以在集群里以会见内存的速率来会见存在tachyon里的文件。把Tachyon是架构在最底层的漫衍式文件存储和上层的各类计较框架之间的一种中间件。首要职责是将那些不必要落地到DFS里的文件，落地到漫衍式内存文件体系中，来到达共享内存，从而进步服从。同时可以镌汰内存冗余，GC时刻等。

Tachyon架构

Tachyon的架构是传统的Master—slave架构，这里和Hadoop相同，TachyonMaster里WorkflowManager是 Master历程，由于是为了防备单点题目，通过Zookeeper做了HA，可以陈设多台Standby Master。Slave是由Worker Daemon和Ramdisk组成。这里小我私人领略只有Worker Daemon是基于JVM的，Ramdisk是一个off heap memory。Master和Worker直接的通信协议是Thrift。

下图来自Tachyon的作者Haoyuan Li：

下载地点：https://github.com/amplab/tachyon

简介：GFS的C++开源版本，Kosmos distributed file system (KFS)是一个专门为数据麋集型应用（搜刮引擎，数据发掘等）而计划的存储体系，相同于Google的GFS和Hadoop的HDFS漫衍式文件体系。 KFS行使C++实现，支持的客户端包罗C++，Java和Python。KFS体系由三部门构成，别离是metaserver、chunkserver和client library。

官网：http://code.google.com/p/kosmosfs/

简介：Hadoop漫衍式文件体系(HDFS)被计划成得当运行在通用硬件(commodity hardware)上的漫衍式文件体系。它和现有的漫衍式文件体系有许多配合点。但同时，它和其他的漫衍式文件体系的区别也是很明明的。HDFS是一个高度容错性的体系，得当陈设在便宜的呆板上。HDFS能提供高吞吐量的数据会见，很是得当大局限数据集上的应用。HDFS放宽了一部门POSIX束缚，来实现流式读取文件体系数据的目标。HDFS在最开始是作为Apache Nutch搜刮引擎项目标基本架构而开拓的。HDFS是Apache Hadoop Core项目标一部门。

官网：http://hadoop.apache.org/

资源打点

开拓者：Twitter研发职员John Oskasson

简介：Apache Mesos是由加州大学伯克利分校的AMPLab起首开拓的一款开源聚集打点软件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构，因为其开源性子越来越受到一些大型云计较公司的青睐，譬喻Twitter、Facebook等。

参考文章：Mesos渐入主流,Twitter模式有望“无穷复制”-CSDN.NET

官网：http://mesos.apache.org/

Hadoop 新 MapReduce 框架 Yarn。为从基础上办理旧 MapReduce 框架的机能瓶颈，促进 Hadoop 框架的更久远成长，从 0.23.0 版本开始，Hadoop 的 MapReduce 框架完全重构，产生了基础的变革。新的 Hadoop MapReduce 框架定名为 MapReduceV2 可能叫 Yarn，其架构图如下图所示：

Yarn 框架相对付老的 MapReduce 框架什么上风呢？我们可以看到：

1、这个计划大大减小了 JobTracker（也就是此刻的 ResourceManager）的资源耗损，而且让监测每一个 Job 子使命 (tasks) 状态的措施漫衍式化了，更安详、更美妙。

2、在新的 Yarn 中，ApplicationMaster 是一个可改观的部门，用户可以对差异的编程模子写本身的 AppMst，让更多范例的编程模子可以或许跑在 Hadoop 集群中，可以参考 hadoop Yarn 官方设置模板中的 mapred-site.xml 设置。

3、对付资源的暗示以内存为单元 ( 在今朝版本的 Yarn 中，没有思量 cpu 的占用 )，比之前以剩余 slot 数量更公道。

4、老的框架中，JobTracker 一个很大的承担就是监控 job 下的 tasks 的运行状况，此刻，这个部门就扔给 ApplicationMaster 做了，而 ResourceManager 中有一个模块叫做 ApplicationsMasters( 留意不是 ApplicationMaster)，它是监测 ApplicationMaster 的行状况，假如出题目，会将其在其他呆板上重启。

5、Container 是 Yarn 为了未来作资源断绝而提出的一个框架。这一点应该小心了 Mesos 的事变，今朝是一个框架，仅仅提供 java 假造机内存的断绝,hadoop 团队的计划思绪应该后续能支持更多的资源调治和节制,既然资源暗示成内存量，那就没有了之前的 map slot/reduce slot 分隔造成集群资源闲置的忧伤环境。

官网：http://hadoop.apache.org/

第二部门将整合大数据日记网络体系、动静体系、集群打点、基本办法、监控打点等开源器材。并将于3月12日宣布，尽请等候。

一共81个，开源大数据处理赏罚器材汇总（下），包罗日记网络体系/集群打点/RPC等

End.

转载请注明来自36大数据（36dsj.com)：36大数据???一共81个，开源大数据处理赏罚器材汇总（上）

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智