2022-04-09 Spark资源参数调优 Spark Spark性能优化 Spark资源参数调优Spark资源参数讨论 美团性能优化指南 配置资源前牢记的一些理论 Hadoop/Yarn/OS的守护进程,例如 NameNode、Secondary NameNode、DataNode、JobTracker 和
2022-02-26 内存管理机制 Spark 《Apache Spark设计与实现》读书笔记 内存管理机制一方面,在Spark执行过程中,需要在内存中处理大量数据。另一方面,数据缓存机制也会在内存中缓存大量数据避免重复计算。所以,需要设计一个内存管理机制 内存消耗的来源首先我们要梳理一下spark中内存消耗的来源: 第一个就是用户
2022-02-24 错误容忍机制 Spark 《Apache Spark设计与实现》读书笔记 错误容忍机制在使用Spark大数据处理的过程中,有时候会出现一些软硬件故障导致任务执行失败和数据丢失,这时候就需要设计一个容错机制来解决以下问题: 硬盘网络问题、节点挂了、内容不够等问题从而IO异常、响应超时等导致任务执行失败 节点挂了导
2022-02-23 数据缓存机制 Spark 《Apache Spark设计与实现》读书笔记 数据缓存机制数据缓存机制是什么?在执行数据操作算子的过程中,可能会对一些数据多次访问,需要花费大量时间。Spark提供了数据缓存机制,可以把这些数据缓存起来,加快处理速度。 我们来看一个具体的例子: 之前我们学过了job是根据action
2022-02-18 Spark中的Shuffle机制 Spark 《Apache Spark设计与实现》读书笔记 在之前章节,我们了解了Spark如何将逻辑处理流程转化为物理执行计划,也学习了如何执行计算任务(task),但是没有详细讨论上下游stage之间和不同节点上的task之间是如何传递数据的,这个数据传递过程实际就是Shuffle机制。 什么是
2022-02-17 Spark物理执行计划 Spark 《Apache Spark设计与实现》读书笔记 本章的核心问题是如何将逻辑处理流程转化为物理执行计划,下面将详细讲解,请读者结合大数据处理框架图进行学习 物理执行计划生成方法: Spark采用3个步骤来生成物理执行计划,下面将详细介绍这三个步骤 根据action()操作顺序将应用划分为作
2022-02-16 Spark常用的数据操作算子 Spark 《Apache Spark设计与实现》读书笔记 常用Transformations()操作 rdd2 = rdd1.map(func) 对rdd1中的每个元素进行处理和输出 P51 rdd2 = rdd1.mapValues(func) 对rdd1中的每个<K,V&g
2022-02-13 Spark逻辑处理流程 Spark 《Apache Spark设计与实现》读书笔记 逻辑处理流程四部分: 数据源:从hdfs,hbase甚至内存里的数据结构,流式处理还可以是网络流 数据模型: MR里面是<K,V>形式的,只能map(K,V)或者reduce(K,list(V)),不灵活。而spark用的是R
2021-09-30 Spark job中的stage划分与三种提交模式 Spark 《Spark性能优化的道与术》课程笔记 首先要了解宽依赖和窄依赖是什么? 窄依赖:每个RDD对应一个父RDD,每个父子RDD是一对一的关系 宽依赖:父RDD的partition被多个子RDD使用,父子RDD是错综复杂的关系 产生了shuffle操作就是宽依赖 什么是sta
2021-09-21 《Hadoop和Spark上遗传算法分布式架构》论文笔记 MapReduceSpark遗传算法 硕士每周论文笔记 基本信息 题目:Parallel and distributed architecture of genetic algorithm on Apache Hadoop and Spark 作者:Hao-chun Lu,F.J.Hwang,Y