Hive 提供了一个交互式接口,来让用户通过 SQL 来操作数据。这里记录一下常用的Hive SQL 语句。
程序员对效率的追求,是永无停止的。
今天接手一个任务,心血来潮用Spark跑一下。 第一次任务花费时间9.6 min,最终调优结果为1.9 min,提升约80%。 还是很有成效的,所以记录一下过程,以便以后参考。
RDD是Spark的重要组件,这次来介绍了一下RDD的定义、和DSM的对比、基本操作以及优缺点。
虚拟机是如何执行字节码的呢?
SparkContext是Apache Spark功能的入口,任何Spark驱动程序应用程序最重要的步骤都是来生成SparkContext,来详细了解一下它。