2021-09-09 共享变量与Cache Spark 《Spark快速上手》课程笔记 默认情況下,一个算子函数中使用到了某个外部的变量,那么这个变量的值会被拷贝到每个task中,此时每个task只能操作自己的那份变量数据Spark提供了两种共享变量,一种是 Broadcast Variable(广播变量),另一种是 Accu
2021-09-09 RDD开发实战 Spark 《Spark快速上手》课程笔记 如何创建RDD? 创建RDD有三种方式 基于集合创建RDD:使用sparkContext的parallelize()方法,第一个参数传入集合,第二个参数传入partition数量。Spark会为每个partition执行一个task 12
2021-09-07 配置Spark环境及架构介绍 Spark 《Apache Spark设计与实现》读书笔记 如何在IDEA中配置Spark开发环境? 首先自行下载scala,并在IDEA中加入scala的SDK,因为spark2.4.3依赖scala2.11,故这里下载scala2.11.11 并在pom.xml中添加spark2.4.3的
2021-09-06 初识Spark与工作原理 Spark 《Spark快速上手》课程笔记 需求分析:读取文件所有内容,统计每个单词出现的次数 首先介绍一下如何用Scala在本地运行WordCount 第一步,首先要构建Application的运行环境,Driver创建一个SparkContext 1234val conf =
2021-09-04 大数据处理框架概览 Spark 《Apache Spark设计与实现》读书笔记 首先了解一下大数据处理框架的四层结构 上图所示,即大数据处理框架四层结构,下面将逐一介绍 用户层 这一层主要是准备输入数据、Spark或Hadoop的用户代码、配置参数 输入数据:一般以分块形式存在HDFS或者Hbase或数据库中 用户
2021-08-30 初识Spark与工作原理 Spark 《Spark快速上手》课程笔记 什么是Spark?Spark是用来替换MapReduce的,因为它基于内存计算,可以比MapReduce快几十倍几百倍 Spark怎么和Hadoop结合使用?如下图所示,后面几章将着重介绍Spark Core和Spark SQL 这里简
2021-08-25 Spark实现基于GA的BN结构学习 Spark贝叶斯网络遗传算法 《贝叶斯网络结构学习算法》论文笔记 本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写上篇文章我们了解了什么是HDFS、MapReduce和Spark该论文还需要学习的内容如下:(本文只解决第一个问题) 如何用分布式实现GA算法? 如何用Spark实现基于GA的BN
2021-08-19 初识Spark及HDFS与MR HDFSMapReduceSpark 《贝叶斯网络结构学习算法》论文笔记 本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写上篇文章我们了解了什么是BN结构学习算法以及GA算法该论文还需要学习的内容如下:(本文只解决第一个问题) 什么是Spark分布式计算平台? 如何用分布式实现GA算法? 如何并行化构