标签: Spark | mactql的小站

2021-09-09

默认情況下，一个算子函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中，此时每个task只能操作自己的那份变量数据Spark提供了两种共享变量，一种是 Broadcast Variable(广播变量)，另一种是 Accu

2021-09-09

RDD开发实战

如何创建RDD？创建RDD有三种方式基于集合创建RDD：使用sparkContext的parallelize()方法，第一个参数传入集合，第二个参数传入partition数量。Spark会为每个partition执行一个task 12

2021-09-07

如何在IDEA中配置Spark开发环境？首先自行下载scala，并在IDEA中加入scala的SDK，因为spark2.4.3依赖scala2.11，故这里下载scala2.11.11 并在pom.xml中添加spark2.4.3的

2021-09-06

需求分析：读取文件所有内容，统计每个单词出现的次数首先介绍一下如何用Scala在本地运行WordCount 第一步，首先要构建Application的运行环境，Driver创建一个SparkContext 1234val conf =

2021-09-04

首先了解一下大数据处理框架的四层结构上图所示，即大数据处理框架四层结构，下面将逐一介绍用户层这一层主要是准备输入数据、Spark或Hadoop的用户代码、配置参数输入数据：一般以分块形式存在HDFS或者Hbase或数据库中用户

2021-08-30

什么是Spark？Spark是用来替换MapReduce的，因为它基于内存计算，可以比MapReduce快几十倍几百倍 Spark怎么和Hadoop结合使用？如下图所示，后面几章将着重介绍Spark Core和Spark SQL 这里简

2021-08-25

本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写上篇文章我们了解了什么是HDFS、MapReduce和Spark该论文还需要学习的内容如下：（本文只解决第一个问题）如何用分布式实现GA算法？如何用Spark实现基于GA的BN

2021-08-19

初识Spark及HDFS与MR

本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写上篇文章我们了解了什么是BN结构学习算法以及GA算法该论文还需要学习的内容如下：（本文只解决第一个问题）什么是Spark分布式计算平台？如何用分布式实现GA算法？如何并行化构