继Hadoop之后，又一项大数据处理利器：Spark出世。来了解一下它。

Spark的基本介绍

1. 什么是Spark?

简单说，它是个开源的大数据处理引擎。它有许多API，可以更好的帮助数据开发者对数据进行Streaming，机器学习或SQL等操作。

同时，它可以与大数据生态圈良好的整合。它可以访问Hadoop数据源，也可以在Hadoop集群上运行。

与Hadoop不同的是，它可以基于内存进行迭代运算。

我们可以用Java、Scala、Python和R来进行编程。

Spark Core是Spark的中心点。基本上，它为所有的Spark应用程序提供了一个执行平台。此外，为了支持广泛的应用程序，Spark提供了一个通用平台。

在Spark的顶部，Spark SQL使用户能够运行SQL / HQL查询。

我们可以使用Spark SQL处理结构化以及半结构化数据。

此外，它还可以在现有部署中将未修改的查询运行速度提高100倍。

基本上，在实时流媒体中，Spark Streaming支持强大的交互式和数据分析应用程序。此外，直播流将转换为可以在Spark Core顶部执行的微批次。

MLlib 既提供了高效率、高质量的机器学习算法。此外，它是数据科学家最热门的选择。由于它能够进行内存数据处理，因此可以大大提高迭代算法的性能。

Spark GraphX基本上是构建在Apache Spark之上的图形计算引擎，可以按比例处理图形数据。

它是R包，提供轻量级的前端。而且，它允许数据科学家分析大型数据集，还允许从R shell交互式地运行作业。

SparkR背后的主要思想是探索不同的技术来将R的可用性与Spark的可扩展性结合起来。