SparkContext是Apache Spark功能的入口,任何Spark驱动程序应用程序最重要的步骤都是来生成SparkContext,来详细了解一下它。
简介
1. 能做什么
它允许Spark应用程序在资源管理器的帮助下访问Spark Cluster。资源管理器可以是以下三种中的一种:Spark Standalone,YARN和Apache Mesos。
2. 创建
要创建SparkContext,首先应该创建SparkConf。 SparkConf有一个配置参数,Spark驱动程序(Driver)会将这些参数,传递给SparkContext。
这些参数,指导了spark如何在集群上去请求资源,同时也控制了每个work node的上的container的数目、内存大小和core的数量。
3. 具体使用
在创建 SparkContext 对象之后,就可以通过它来调用spark函数,比如textFile, sequenceFile, parallelize等。
同时它就可以用来创建RDD,广播变量和作为累加器,进入Spark服务和运行作业。
所有这些都可以在SparkContext停止之前执行。
4. 停止 SparkContext
直接调用sparkcontext的stop方法即可。
WordCount例子
package org.apache.spark.examples
import org.apache.spark.{SparkConf, SparkContext}
/**
* Created by waltyou on 18-6-14.
*/
object WordCount {
def main(args: Array[String]) {
//Create conf object
val conf = new SparkConf()
.setAppName("WordCount")
//create spark context object
val sc = new SparkContext(conf)
//Check whether sufficient params are supplied
if (args.length < 2) {
println("Usage: ScalaWordCount <input> <output>")
System.exit(1)
}
//Read file and create RDD
val rawData = sc.textFile(args(0))
//convert the lines into words using flatMap operation
val words = rawData.flatMap(line => line.split(" "))
//count the individual words using map and reduceByKey operation
val wordCount = words.map(word => (word, 1)).reduceByKey(_ + _)
//Save the result
wordCount.saveAsTextFile(args(1))
//stop the spark context
sc.stop
}
}
记得在Run Configuration里设置好 spark.master,以及输入文件路径和输出目录即可。
SparkContext 在Spark中的功能
1. 获取Spark应用程序的当前状态
SpkEnv
它是Spark公共服务的运行时环境。它与其他部件互相交互,为Spark应用程序建立分布式计算平台。
它为正在运行的spark 应用保留其所需要的服务,服务其中包括记录驱动程序和执行程序的不同环境,从而可以通过SpkEnv来标识 Spark的运行环境。
SparkConf
SparkConf 可以设置spark能处理的最大应用程序数量,并可针对每个应用程序分别进行个性化配置。
它的使用也很简单,一些常见的属性,如主URL和应用程序名称,都可以通过set()方法来配置任意的键、值对。
部署环境(即master URL)
Spark部署环境有两种类型,即本地和集群。
本地模式是非分布式单JVM部署模式。所有执行组件(driver,executor,LocalSchedulerBackend和master)都存在于同一个JVM中。 这是唯一一个driver可以对执行起作用的模式。 为了测试,调试或演示目的,本地模式是合适的,因为它不需要提前设置来启动火花应用程序。
在集群模式下,Spark以分布模式运行。
2. 设置配置
Master URL
master方法返回部署环境正在使用的spark.master当前值。
本地属性 - 创建逻辑作业组
本地属性概念的目的是通过属性创建逻辑作业组,这些属性使从不同线程启动的独立作业可以属于单个逻辑组。
你可以设置一个本地属性,用来影响从线程提交的Spark作业。
默认日志记录级别
它允许您在Spark应用程序中设置根登录级别,例如Spark Shell
3. 访问各种服务
它还有助于访问TaskScheduler,LiveListenBus,BlockManager,SchedulerBackend,ShuffelManager和可选的ContextCleaner等服务。
4. 取消 Job
cancleJob只是简单地要求DAGScheduler放弃一个Spark作业。
5. 取消 stage
cancleStage只是简单地要求DAGScheduler放弃一个Spark stage。
6. 闭包清理
每次发生Action操作时,Spark都会清理关闭操作,Action的主体会在清理前,序列化并通过网络发送、执行。
这个操作是 SparkContext的 clean方法来完成的,这个方法也被叫做 ClosureClean.clean。
它不仅清理闭包,而且也清理引用闭包。
7. 注册Spark监听器
我们可以通过 addSparkListener 方法,注册一个自定义的 SparkListenerInterface。或者通过 spark.extraListeners 设置,来注册也是可以的。
8. 可编程动态分配
它还提供以下方法作为开发者API,用于动态分配executor:requestExecutors,killExecutors,requestTotalExecutors,getExecutorIds。
9. 访问持久性RDD
getPersistentRDDs给出了已通过缓存标记为持久的RDD的集合。
10. unpersist RDD
从主模块管理器和内部persistentRdds映射中,unpersist删除RDD。