针对图计算,Spark 下有一个单独的包,叫做: GraphX。来看看它是什么。
Spark 的 Cluster Manager 有三种类型: Spark Standalone cluster, YARN mode, and Spark Mesos。来看看都是什么。
DAG,全称 Directed Acyclic Graph, 中文为:有向无环图。
在 Spark 中, 使用 DAG 来描述我们的计算逻辑。
Hive 提供了一个交互式接口,来让用户通过 SQL 来操作数据。这里记录一下常用的Hive SQL 语句。
今天接手一个任务,心血来潮用Spark跑一下。 第一次任务花费时间9.6 min,最终调优结果为1.9 min,提升约80%。 还是很有成效的,所以记录一下过程,以便以后参考。
RDD是Spark的重要组件,这次来介绍了一下RDD的定义、和DSM的对比、基本操作以及优缺点。