2022-02-16 Spark常用的数据操作算子 Spark 《Apache Spark设计与实现》读书笔记 常用Transformations()操作 rdd2 = rdd1.map(func) 对rdd1中的每个元素进行处理和输出 P51 rdd2 = rdd1.mapValues(func) 对rdd1中的每个<K,V&g
2022-02-13 Spark逻辑处理流程 Spark 《Apache Spark设计与实现》读书笔记 逻辑处理流程四部分: 数据源:从hdfs,hbase甚至内存里的数据结构,流式处理还可以是网络流 数据模型: MR里面是<K,V>形式的,只能map(K,V)或者reduce(K,list(V)),不灵活。而spark用的是R
2022-02-08 jk式万能回溯法 Leetcode Leetcode刷题笔记 步骤: 画出解空间树型图 根据经验写出dfs需要的参数 写上结束条件 根据树型图写出for循环,并与图中每一层比较是否对应 接下来套回溯模版即可 若返回值需要存入数据结构且会被回溯清空,需要另外备份一份才能存入 使用案例1:leetc
2021-10-16 概率论基本知识 贝叶斯网络 硕士课题学习笔记 什么叫联合概率?联合概率:P(AB)代表了A、B两个事件同时发生的概率大小 什么叫条件概率?条件概率:P(A|B)表示A在B发生的条件下的发生的概率,当P(B)>0时,条件概率如下
2021-10-15 《NAS-BERT:神经架构搜索与自适应BERT压缩》论文笔记 Transformer 硕士每周论文笔记 基本信息题目:《NAS-BERT: Task-agnostic and Adaptive-size BERT Compression with Neural Architecture Search》 理论方法阐释 首先给定一个Teache
2021-09-30 Spark job中的stage划分与三种提交模式 Spark 《Spark性能优化的道与术》课程笔记 首先要了解宽依赖和窄依赖是什么? 窄依赖:每个RDD对应一个父RDD,每个父子RDD是一对一的关系 宽依赖:父RDD的partition被多个子RDD使用,父子RDD是错综复杂的关系 产生了shuffle操作就是宽依赖 什么是sta
2021-09-30 《分布式进化算法及其模型:最新进展综述》论文笔记 分布式遗传算法 硕士每周论文笔记 基本信息 题目:Distributed evolutionary algorithms and their models: A survey of the state-of-the-art 作者:Gong Y-J, Chen W-N, Zh
2021-09-24 剖析HDFS/MR小文件与数据倾斜问题 HDFSMapReduce 《拿来就用的企业级解决方案》课程笔记 什么是小文件问题? HDFS上如果小文件很多,每个小文件都会在NameNode中占用150字节的内存空间 而在MR中每个小文件都会占一个block,每个block都会产生数据分片对应一个Map任务,导致Map任务特别多,消耗了很多启动Map
2021-09-21 《Hadoop和Spark上遗传算法分布式架构》论文笔记 MapReduceSpark遗传算法 硕士每周论文笔记 基本信息 题目:Parallel and distributed architecture of genetic algorithm on Apache Hadoop and Spark 作者:Hao-chun Lu,F.J.Hwang,Y
2021-09-17 Redis数据类型 Redis 《快速上手内存数据库Redis》课程笔记 Redis常见数据类型上一章我们了解了Redis常见的五种数据类型,string、set、hash、sortedset、list,这里我们详细介绍一下 首先是stringstring可以存任何形式的内容,甚至是二进制数据或图片在这些操作的