什么是Spark,与Hadoop相比,主要有什么不同?

2019-12-08 04:47


什么是Spark?Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行核算结构,Spark根据map reduce算法完成的分布式核算,具有Hadoop MapReduce所具有的长处;但不同于MapReduce的是Job中心输出和成果能够保存在内存中,然后不再需求读写HDFS,因而Spark能更好地适用于数据发掘与机器学习等需求迭代的map reduce的算法。其架构如下图所示:

2018-09-10_185206.png

Spark与Hadoop的比照



Spark的中心数据放到内存中,关于迭代运算功率更高。

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里边,有RDD的抽象概念。

Spark比Hadoop更通用

Spark供给的数据集操作类型有很多种,不像Hadoop只供给了Map和Reduce两种操作。比方map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,Spark把这些操作称为Transformations。一同还供给Count, collect, reduce, lookup, save等多种actions操作。

这些多种多样的数据集操作类型,给给开发上层使用的用户供给了便利。各个处理节点之间的通信模型不再像Hadoop那样便是仅有的Data Shuffle一种形式。用户能够命名,物化,操控中心成果的存储、分区等。能够说编程模型比Hadoop更灵敏。

不过因为RDD的特性,Spark不适用那种异步细粒度更新状况的使用,例如web服务的存储或者是增量的web爬虫和索引。便是关于那种增量修正的使用模型不适合。

容错性

在分布式数据集核算时经过checkpoint来完成容错,而checkpoint有两种方法,一个是checkpoint data,一个是logging the updates。用户能够操控选用哪种方法来完成容错。

可用性

Spark经过供给丰厚的Scala, Java,Python API及交互式Shell来进步可用性。

Spark与Hadoop的结合

Spark能够直接对HDFS进行数据的读写,相同支撑Spark on YARN。Spark能够与MapReduce运转于同集群中,同享存储资源与核算,数据仓库Shark完成上借用Hive,简直与Hive完全兼容。

Spark的适用场景

Spark是根据内存的迭代核算结构,适用于需求屡次操作特定数据集的使用场合。需求重复操作的次数越多,所需读取的数据量越大,获益越大,数据量小可是核算密布度较大的场合,获益就相对较小

因为RDD的特性,Spark不适用那种异步细粒度更新状况的使用,例如web服务的存储或者是增量的web爬虫和索引。便是关于那种增量修正的使用模型不适合。

总的来说Spark的适用面比较广泛且比较通用。

运转形式

本地形式

Standalone形式

Mesoes形式

yarn形式

Spark生态系统

Shark : Shark根本上便是在Spark的结构基础上供给和Hive相同的H iveQL指令接口,为了最大程度的坚持和Hive的兼容性,Shark使用了Hive的API来完成query Parsing和 Logic Plan generation,最终的PhysicalPlan execution阶段用Spark替代Hadoop MapReduce。经过装备Shark参数,Shark能够主动在内存中缓存特定的RDD,完成数据重用,从而加速特定数据集的检索。一同,Shark经过UDF用户自定义函数完成特定的数据剖析学习算法,使得SQL数据查询和运算剖析能结合在一同,最大化RDD的重复使用。

Spark streaming: 构建在Spark上处理Stream数据的结构,根本的原理是将Stream数据分红小的时刻片断,以相似batch批量处理的方法来处理这小部分数据。Spark Streaming构建在Spark上,一方面是因为Spark的低推迟履行引擎能够用于实时核算,另一方面比较根据Record的其它处理结构,RDD数据集更简单做高效的容错处理。此外小批量处理的方法使得它能够一同兼容批量和实时数据处理的逻辑和算法。便利了一些需求历史数据和实时数据联合剖析的特定使用场合。

Bagel: Pregel on Spark,能够用Spark进行图核算,这是个十分有用的小项目。Bagel自带了一个比如,完成了Google的PageRank算法。

在不久的将来,多智年代一定会完全走入咱们的日子,有爱好入行未来前沿工业的朋友,能够保藏多智年代,及时获取人工智能、大数据、云核算和物联网的前沿资讯和基础知识,让咱们一同携手,引领人工智能的未来!



服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!