2021-08-30 初识Spark与工作原理 Spark 《Spark快速上手》课程笔记 什么是Spark?Spark是用来替换MapReduce的,因为它基于内存计算,可以比MapReduce快几十倍几百倍 Spark怎么和Hadoop结合使用?如下图所示,后面几章将着重介绍Spark Core和Spark SQL 这里简
2021-08-27 第7章 MapReduce工作机制 MapReduceYARN 《Hadoop权威指南》读书笔记 在前面章节,我们简单了解了YARN的工作机制,这一章将详细介绍介绍MapReduce是怎么运行 MapReduce YARN的工作机制? 结合上图来学习一下每个步骤: 首先是提交作业,直接调用 Job 对象的 submit() 即可,他
2021-08-26 第4章 关于YARN YARN 《Hadoop权威指南》读书笔记 首先YARN是什么? 在Hadoop1.0的时候,MapReduce的JobTracker负责了太多工作,接收任务是它,资源调度是它,监控TaskTracker还是它,显然不合理所以在hadoop2.0的时候就把资源调度的任务分离出来,让Y
2021-08-26 第3章 关于HDFS HDFS 《Hadoop权威指南》读书笔记 为什么要用HDFS,优点和缺点是什么? 首先说一下优点: 可以存超大文件 一次写入,多次读取 可运行在廉价集群上,一个节点坏了还能继续运行 然后是缺点: 不能低延迟时间的访问:HDFS是为了高吞吐优化的,如果要低延迟可以用HBas
2021-08-25 第2章 关于MapReduce MapReduce 《Hadoop权威指南》读书笔记 Map和Reduce分别是什么? MapReduce任务过程分为两个阶段,分别是Map和Reduce,即程序员实现Mapper和Reducer两个接口 什么是Map,就是拆,把拼好的乐高汽车玩具拆成一块块积木,每个积木都是一个<Ke
2021-08-25 Spark实现基于GA的BN结构学习 Spark贝叶斯网络遗传算法 《贝叶斯网络结构学习算法》论文笔记 本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写上篇文章我们了解了什么是HDFS、MapReduce和Spark该论文还需要学习的内容如下:(本文只解决第一个问题) 如何用分布式实现GA算法? 如何用Spark实现基于GA的BN
2021-08-19 初识Spark及HDFS与MR HDFSMapReduceSpark 《贝叶斯网络结构学习算法》论文笔记 本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写上篇文章我们了解了什么是BN结构学习算法以及GA算法该论文还需要学习的内容如下:(本文只解决第一个问题) 什么是Spark分布式计算平台? 如何用分布式实现GA算法? 如何并行化构
2021-08-18 初识贝叶斯网络与遗传算法 贝叶斯网络遗传算法 《贝叶斯网络结构学习算法》论文笔记 本笔记是对《贝叶斯网络结构学习算法研究》论文进行学习时所写 首先通过摘要可以了解到该论文研究的方向,即在大数据情况下基于遗传算法的贝叶斯网络结构算法执行效率问题作者将混合方式的 BN 结构学习算法与 Spark 分布式计算平台结合在构建超结
2021-08-15 第1章 简单工厂模式 设计模式 《大话设计模式》读书笔记 简单工厂模式是什么?用来干啥?设想一下,如果有很多个类,都是完成类似的工作。那么就可以写一个工厂类就像一个中间人一样,来帮助我们选择需要的类来创建对象,而不用我们自己去new,UML图如下:比如要做一个计算器程序,需要设计加减乘除等运算类
2021-08-14 Maven入门指南 Maven 《Maven项目管理》课程笔记 为什么要用Maven? 场景一:idea开发的项目没法到eclipse中运行,即不同的ide开发的项目不能互相使用 场景二:大型项目需要很多个jar包,要去不同的网站下载,也不方便更新,很麻烦 IDEA上怎么创建Maven项目?创建Ma