Hbase 是 Hadoop 生态中重要的一个组成部分,它作为一个 NoSql 数据库的角色存在,来解决大数据情景下的数据查询存储问题。
针对图计算,Spark 下有一个单独的包,叫做: GraphX。来看看它是什么。
Spark 的 Cluster Manager 有三种类型: Spark Standalone cluster, YARN mode, and Spark Mesos。来看看都是什么。
DAG,全称 Directed Acyclic Graph, 中文为:有向无环图。
在 Spark 中, 使用 DAG 来描述我们的计算逻辑。
Hive 提供了一个交互式接口,来让用户通过 SQL 来操作数据。这里记录一下常用的Hive SQL 语句。
今天接手一个任务,心血来潮用Spark跑一下。 第一次任务花费时间9.6 min,最终调优结果为1.9 min,提升约80%。 还是很有成效的,所以记录一下过程,以便以后参考。