分类: 《Apache Spark设计与实现》读书笔记

2022-02-26

内存管理机制

内存管理机制一方面，在Spark执行过程中，需要在内存中处理大量数据。另一方面，数据缓存机制也会在内存中缓存大量数据避免重复计算。所以，需要设计一个内存管理机制内存消耗的来源首先我们要梳理一下spark中内存消耗的来源：第一个就是用户

2022-02-24

错误容忍机制

错误容忍机制在使用Spark大数据处理的过程中，有时候会出现一些软硬件故障导致任务执行失败和数据丢失，这时候就需要设计一个容错机制来解决以下问题：硬盘网络问题、节点挂了、内容不够等问题从而IO异常、响应超时等导致任务执行失败节点挂了导

2022-02-23

数据缓存机制

数据缓存机制数据缓存机制是什么？在执行数据操作算子的过程中，可能会对一些数据多次访问，需要花费大量时间。Spark提供了数据缓存机制，可以把这些数据缓存起来，加快处理速度。我们来看一个具体的例子：之前我们学过了job是根据action

2022-02-18

在之前章节，我们了解了Spark如何将逻辑处理流程转化为物理执行计划，也学习了如何执行计算任务(task)，但是没有详细讨论上下游stage之间和不同节点上的task之间是如何传递数据的，这个数据传递过程实际就是Shuffle机制。什么是

2022-02-17

Spark物理执行计划

本章的核心问题是如何将逻辑处理流程转化为物理执行计划，下面将详细讲解，请读者结合大数据处理框架图进行学习物理执行计划生成方法： Spark采用3个步骤来生成物理执行计划，下面将详细介绍这三个步骤根据action()操作顺序将应用划分为作

2022-02-16

常用Transformations()操作 rdd2 = rdd1.map(func) 对rdd1中的每个元素进行处理和输出 P51 rdd2 = rdd1.mapValues(func) 对rdd1中的每个<K,V&g

2022-02-13

Spark逻辑处理流程

逻辑处理流程四部分：数据源：从hdfs，hbase甚至内存里的数据结构，流式处理还可以是网络流数据模型： MR里面是<K,V>形式的，只能map(K,V)或者reduce(K,list(V))，不灵活。而spark用的是R

2021-09-07

如何在IDEA中配置Spark开发环境？首先自行下载scala，并在IDEA中加入scala的SDK，因为spark2.4.3依赖scala2.11，故这里下载scala2.11.11 并在pom.xml中添加spark2.4.3的

2021-09-04

首先了解一下大数据处理框架的四层结构上图所示，即大数据处理框架四层结构，下面将逐一介绍用户层这一层主要是准备输入数据、Spark或Hadoop的用户代码、配置参数输入数据：一般以分块形式存在HDFS或者Hbase或数据库中用户