object WordCount {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("yaoWordCount").setMaster("local[2]")
    val sc = new SparkContext(conf)
    var hadoopRDD: RDD[String] = sc.textFile(args(0))
    var hdfsRDD: RDD[String] = hadoopRDD.flatMap(_.split(""))
    //单词和出现的次数，构建RDD并且调用了他的Transformation
    //返回的是一个hadoopRDD
    //transFormation都是返回的RDD
    var wordAndCount: RDD[(String, Int)] = hdfsRDD.map((_, 1))
    //创建RDD 这里面有两个RDD,一个是hadoopRDD，然后会生成一个paritionRDD
    //savaasTextfile还会产生一个RDD,因为会调用mapPartitons
    //调用RDD的action 开始真正提交任务
    var reducedRDD: RDD[(String, Int)] = wordAndCount.reduceByKey(_ + _)
    reducedRDD.saveAsTextFile(args(1))
    //关闭saprkContext资源
    sc.stop()
  }
}

Spark-on-Yarn源码解析(三)client做的事情

2018-09-04

Spark-On-Yarn

Spark, 原理

[TOC]

spark-on-yarn系列

Spark-on-Yarn 源码解析①Yarn 任务解析
 Spark-on-Yarn 源码解析②Spark-Submit 解析
 Spark-on-Yarn 源码解析③client 做的事情
 Spark-on-Yarn 源码解析④Spark 业务代码的执行及其任务分配调度 stage 划分

org.apache.spark.deploy.yarn.Client

话不多说，先上源码，当然还是简洁版本的

这儿我先上一下最简洁的调用链。

Client.main()
    ->new Client().run()
         ->monitorApplication(submitApplication())
            ->submitApplication()
                ->createContainerLaunchContext()会封装一些启动信息如我们启动的类 --class
                    ->userClass
                    ->amArgs
                    ->commands
                    ->printableCommands
                    ->amClass applicationMaster启动的真实类

                ->createApplicationSubmissionContext()
                    ->Records.newRecord(classOf[Resource])启动
                ->yarnClientImpl.submitApplication(appContext)

Spark-on-Yarn源码解析(二)Spark-Submit解析

2018-09-04

Spark-On-Yarn

Spark, 原理

[TOC]

spark-on-yarn系列

Spark-on-Yarn 源码解析①Yarn 任务解析
 Spark-on-Yarn 源码解析②Spark-Submit 解析
 Spark-on-Yarn 源码解析③client 做的事情
 Spark-on-Yarn 源码解析④Spark 业务代码的执行及其任务分配调度 stage 划分

上文我们了解到了yarn的架构和执行任务的流程，接下来我们看看

spark-submit命令

$SPARK_HOME/bin/spark-submit \
--master yarn \ //提交模式 yarn
--deploy-mode cluster \ //运行的模式，还有一种client模式，但大多用于调试，此处使用cluster模式
--class me.yao.spark.me.yao.spark.WordCount \ //提交的任务
--name "wc" \ //任务名字
--queue root.default \ //提交的队列
--driver-memory 3g \ //为driver申请的内存
--num-executors 1 \ //executors的数量，可以理解为线程数，对应yarn中的Container个数
--executor-memory 6g \ //为每一个executor申请的内存
--executor-cores 4 \ //为每一个executor申请的core
--conf spark.yarn.driver.memoryOverhead=1g \ //driver可使用的非堆内存，这些内存用于如VM，字符 串常量池以及其他额外本地开销等
--conf spark.yarn.executor.memoryOverhead=2g \ //每个executor可使用的非堆内存，这些内存用于如 VM，字符串常量池以及其他额外本地开销等

这是通常我们提交spark程序的submit命令，以此为切入点，对spark程序的运行流程做一个跟踪和分析。

Spark-on-Yarn源码解析(一)Yarn任务解析

2018-09-04

Spark-On-Yarn

Spark, Yarn, 原理

[TOC]

spark-on-yarn系列
Spark-on-Yarn 源码解析①Yarn 任务解析
 Spark-on-Yarn 源码解析②Spark-Submit 解析
 Spark-on-Yarn 源码解析③client 做的事情
 Spark-on-Yarn 源码解析④Spark 业务代码的执行及其任务分配调度 stage 划分

了解spark-on-yarn,首先我们了解一下yarn提交的流程，俗话说，欲练此功，错了，我们还是先看吧

yarn任务的提交

YARN 的基本架构和工作流程

YARN 的基本架构如上图所示，由三大功能模块组成，分别是 1) RM (ResourceManager) 2) NM (Node Manager) 3) AM(Application Master)