加载中...
初识Spark与工作原理
发表于:2021-09-06 | 分类: 《Spark快速上手》课程笔记
字数统计: 252 | 阅读时长: 1分钟 | 阅读量:

需求分析:

读取文件所有内容,统计每个单词出现的次数


首先介绍一下如何用Scala在本地运行WordCount

  1. 第一步,首先要构建Application的运行环境,Driver创建一个SparkContext

    1
    2
    3
    4
    val conf = new SparkConf()
    conf.setAppName("WordCount") //设置作业名称
    .setMaster("local") //设置在本地运行
    val sc = new SparkContext(conf) //通过Conf参数创建一个SparkContext
  2. 第二步,加载数据并转化成RDD

    1
    val lineRDD = sc.textFile("HDFS路径或者磁盘文件的路径")
  3. 第三步,对数据进行切割,把一行数据切成一个个单词

    1
    val wordsRDD = lineRDD.flatMap(_.split(" ")) //flatMap使用高阶函数,这里对空格进行分割,处理后形成新的RDD
  4. 第四步,迭代words,把每个word转化成(word,1)的键值对形式

    1
    val pairRDD = wordsRDD.map((_,1))
  5. 第五步,根据Key进行分组聚合统计

    1
    val wordCountRDD = pairRDD.reduceByKey(_ + _)
  6. 第六步,打印结果并关闭SparkContext

    1
    2
    wordCountRDD.foreach(wordCount=>println(wordCount._1+"--"+wordCount._2))
    sc.stop()
上一篇:
配置Spark环境及架构介绍
下一篇:
大数据处理框架概览
本文目录
本文目录