2021-09-09 共享变量与Cache Spark 《Spark快速上手》课程笔记 默认情況下,一个算子函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中,此时每个task只能操作自己的那份变量数据Spark提供了两种共享变量,一种是 Broadcast Variable(广播变量),另一种是 Accu
2021-09-09 RDD开发实战 Spark 《Spark快速上手》课程笔记 如何创建RDD? 创建RDD有三种方式 基于集合创建RDD:使用sparkContext的parallelize()方法,第一个参数传入集合,第二个参数传入partition数量。Spark会为每个partition执行一个task 12
2021-09-06 初识Spark与工作原理 Spark 《Spark快速上手》课程笔记 需求分析:读取文件所有内容,统计每个单词出现的次数 首先介绍一下如何用Scala在本地运行WordCount 第一步,首先要构建Application的运行环境,Driver创建一个SparkContext 1234val conf =
2021-08-30 初识Spark与工作原理 Spark 《Spark快速上手》课程笔记 什么是Spark?Spark是用来替换MapReduce的,因为它基于内存计算,可以比MapReduce快几十倍几百倍 Spark怎么和Hadoop结合使用?如下图所示,后面几章将着重介绍Spark Core和Spark SQL 这里简