2022-02-26 内存管理机制 Spark 《Apache Spark设计与实现》读书笔记 内存管理机制一方面,在Spark执行过程中,需要在内存中处理大量数据。另一方面,数据缓存机制也会在内存中缓存大量数据避免重复计算。所以,需要设计一个内存管理机制 内存消耗的来源首先我们要梳理一下spark中内存消耗的来源: 第一个就是用户
2022-02-24 错误容忍机制 Spark 《Apache Spark设计与实现》读书笔记 错误容忍机制在使用Spark大数据处理的过程中,有时候会出现一些软硬件故障导致任务执行失败和数据丢失,这时候就需要设计一个容错机制来解决以下问题: 硬盘网络问题、节点挂了、内容不够等问题从而IO异常、响应超时等导致任务执行失败 节点挂了导
2022-02-23 数据缓存机制 Spark 《Apache Spark设计与实现》读书笔记 数据缓存机制数据缓存机制是什么?在执行数据操作算子的过程中,可能会对一些数据多次访问,需要花费大量时间。Spark提供了数据缓存机制,可以把这些数据缓存起来,加快处理速度。 我们来看一个具体的例子: 之前我们学过了job是根据action
2022-02-18 Spark中的Shuffle机制 Spark 《Apache Spark设计与实现》读书笔记 在之前章节,我们了解了Spark如何将逻辑处理流程转化为物理执行计划,也学习了如何执行计算任务(task),但是没有详细讨论上下游stage之间和不同节点上的task之间是如何传递数据的,这个数据传递过程实际就是Shuffle机制。 什么是
2022-02-17 Spark物理执行计划 Spark 《Apache Spark设计与实现》读书笔记 本章的核心问题是如何将逻辑处理流程转化为物理执行计划,下面将详细讲解,请读者结合大数据处理框架图进行学习 物理执行计划生成方法: Spark采用3个步骤来生成物理执行计划,下面将详细介绍这三个步骤 根据action()操作顺序将应用划分为作
2022-02-16 Spark常用的数据操作算子 Spark 《Apache Spark设计与实现》读书笔记 常用Transformations()操作 rdd2 = rdd1.map(func) 对rdd1中的每个元素进行处理和输出 P51 rdd2 = rdd1.mapValues(func) 对rdd1中的每个<K,V&g
2022-02-13 Spark逻辑处理流程 Spark 《Apache Spark设计与实现》读书笔记 逻辑处理流程四部分: 数据源:从hdfs,hbase甚至内存里的数据结构,流式处理还可以是网络流 数据模型: MR里面是<K,V>形式的,只能map(K,V)或者reduce(K,list(V)),不灵活。而spark用的是R
2021-09-07 配置Spark环境及架构介绍 Spark 《Apache Spark设计与实现》读书笔记 如何在IDEA中配置Spark开发环境? 首先自行下载scala,并在IDEA中加入scala的SDK,因为spark2.4.3依赖scala2.11,故这里下载scala2.11.11 并在pom.xml中添加spark2.4.3的
2021-09-04 大数据处理框架概览 Spark 《Apache Spark设计与实现》读书笔记 首先了解一下大数据处理框架的四层结构 上图所示,即大数据处理框架四层结构,下面将逐一介绍 用户层 这一层主要是准备输入数据、Spark或Hadoop的用户代码、配置参数 输入数据:一般以分块形式存在HDFS或者Hbase或数据库中 用户