2021-09-24 剖析HDFS/MR小文件与数据倾斜问题 HDFSMapReduce 《拿来就用的企业级解决方案》课程笔记 什么是小文件问题? HDFS上如果小文件很多,每个小文件都会在NameNode中占用150字节的内存空间 而在MR中每个小文件都会占一个block,每个block都会产生数据分片对应一个Map任务,导致Map任务特别多,消耗了很多启动Map
2021-09-21 《Hadoop和Spark上遗传算法分布式架构》论文笔记 MapReduceSpark遗传算法 硕士每周论文笔记 基本信息 题目:Parallel and distributed architecture of genetic algorithm on Apache Hadoop and Spark 作者:Hao-chun Lu,F.J.Hwang,Y
2021-08-27 第7章 MapReduce工作机制 MapReduceYARN 《Hadoop权威指南》读书笔记 在前面章节,我们简单了解了YARN的工作机制,这一章将详细介绍介绍MapReduce是怎么运行 MapReduce YARN的工作机制? 结合上图来学习一下每个步骤: 首先是提交作业,直接调用 Job 对象的 submit() 即可,他
2021-08-25 第2章 关于MapReduce MapReduce 《Hadoop权威指南》读书笔记 Map和Reduce分别是什么? MapReduce任务过程分为两个阶段,分别是Map和Reduce,即程序员实现Mapper和Reducer两个接口 什么是Map,就是拆,把拼好的乐高汽车玩具拆成一块块积木,每个积木都是一个<Ke
2021-08-19 初识Spark及HDFS与MR HDFSMapReduceSpark 《贝叶斯网络结构学习算法》论文笔记 本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写上篇文章我们了解了什么是BN结构学习算法以及GA算法该论文还需要学习的内容如下:(本文只解决第一个问题) 什么是Spark分布式计算平台? 如何用分布式实现GA算法? 如何并行化构