2021-09-24 剖析HDFS/MR小文件与数据倾斜问题 HDFSMapReduce 《拿来就用的企业级解决方案》课程笔记 什么是小文件问题? HDFS上如果小文件很多,每个小文件都会在NameNode中占用150字节的内存空间 而在MR中每个小文件都会占一个block,每个block都会产生数据分片对应一个Map任务,导致Map任务特别多,消耗了很多启动Map
2021-08-26 第3章 关于HDFS HDFS 《Hadoop权威指南》读书笔记 为什么要用HDFS,优点和缺点是什么? 首先说一下优点: 可以存超大文件 一次写入,多次读取 可运行在廉价集群上,一个节点坏了还能继续运行 然后是缺点: 不能低延迟时间的访问:HDFS是为了高吞吐优化的,如果要低延迟可以用HBas
2021-08-19 初识Spark及HDFS与MR HDFSMapReduceSpark 《贝叶斯网络结构学习算法》论文笔记 本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写上篇文章我们了解了什么是BN结构学习算法以及GA算法该论文还需要学习的内容如下:(本文只解决第一个问题) 什么是Spark分布式计算平台? 如何用分布式实现GA算法? 如何并行化构