标签: Spark | mactql的小站

2022-04-09

Spark资源参数调优

Spark资源参数调优Spark资源参数讨论美团性能优化指南配置资源前牢记的一些理论 Hadoop/Yarn/OS的守护进程，例如 NameNode、Secondary NameNode、DataNode、JobTracker 和

2022-02-26

内存管理机制

内存管理机制一方面，在Spark执行过程中，需要在内存中处理大量数据。另一方面，数据缓存机制也会在内存中缓存大量数据避免重复计算。所以，需要设计一个内存管理机制内存消耗的来源首先我们要梳理一下spark中内存消耗的来源：第一个就是用户

2022-02-24

错误容忍机制

错误容忍机制在使用Spark大数据处理的过程中，有时候会出现一些软硬件故障导致任务执行失败和数据丢失，这时候就需要设计一个容错机制来解决以下问题：硬盘网络问题、节点挂了、内容不够等问题从而IO异常、响应超时等导致任务执行失败节点挂了导

2022-02-23

数据缓存机制

数据缓存机制数据缓存机制是什么？在执行数据操作算子的过程中，可能会对一些数据多次访问，需要花费大量时间。Spark提供了数据缓存机制，可以把这些数据缓存起来，加快处理速度。我们来看一个具体的例子：之前我们学过了job是根据action

2022-02-18

在之前章节，我们了解了Spark如何将逻辑处理流程转化为物理执行计划，也学习了如何执行计算任务(task)，但是没有详细讨论上下游stage之间和不同节点上的task之间是如何传递数据的，这个数据传递过程实际就是Shuffle机制。什么是

2022-02-17

Spark物理执行计划

本章的核心问题是如何将逻辑处理流程转化为物理执行计划，下面将详细讲解，请读者结合大数据处理框架图进行学习物理执行计划生成方法： Spark采用3个步骤来生成物理执行计划，下面将详细介绍这三个步骤根据action()操作顺序将应用划分为作

2022-02-16

常用Transformations()操作 rdd2 = rdd1.map(func) 对rdd1中的每个元素进行处理和输出 P51 rdd2 = rdd1.mapValues(func) 对rdd1中的每个<K,V&g

2022-02-13

Spark逻辑处理流程

逻辑处理流程四部分：数据源：从hdfs，hbase甚至内存里的数据结构，流式处理还可以是网络流数据模型： MR里面是<K,V>形式的，只能map(K,V)或者reduce(K,list(V))，不灵活。而spark用的是R

2021-09-30

首先要了解宽依赖和窄依赖是什么？窄依赖：每个RDD对应一个父RDD，每个父子RDD是一对一的关系宽依赖：父RDD的partition被多个子RDD使用，父子RDD是错综复杂的关系产生了shuffle操作就是宽依赖什么是sta

2021-09-21

基本信息题目：Parallel and distributed architecture of genetic algorithm on Apache Hadoop and Spark 作者：Hao-chun Lu，F.J.Hwang，Y