大数据开发课程学习:大数据会涉及到的知识点讲解
55 2019-01-28

大数据开发学习会涉及到的知识点讲解,准备学习和已经进行大数据培训的朋友都可以看看。

大数据的计算模式

批处理计算 ( MapReduce,Spark):最适合于完成大数据批处理的计算模式是MapReduce,首先,MapReduce对具有简单数据关系、易于划分的大规模数据采用“分而治之”的并行处理思想;然后将大量重复的数据记录处理过程总结成Map和Reduce两个抽象的操作;最后 MapReduce提供了一个统一的并行计算框架,把并行计算所涉及到的诸多系统层细节都交给计算框架去完成,以此大大简化了程序员进行并行化程序设计的负担。

流式计算 (Scribe ,Flume,Storm,S4,SparkStreaming)流式计算是一种高实时性的计算模式,需要对一定时间窗口内应用系统产生的新数据完成实时的计算处理,避免造成数据堆积和丢失。

迭代计算 ( HaLoop ,iMapReduce,Twister,Spark)为了克服Hadoop MapReduce难以支持迭代计算的缺陷,工业界和学术界对Hadoop MapReduce进行了不少改进研究。HaLoop把迭代控制放到MapReduce作业执行的框架内部,并通过循环敏感的调度器保证前次迭代的Reduce输出和本次迭代的Map输入数据在同一台物理机上,以减少迭代间的数据传输开销;

交互式计算

图计算 (Pregel,PowerGrapg,GraphX)

内存计算 (Dremel,Hana,redis)

大数据的工作流程

1、采集与预处理

从数据源采集的数据,需要通过数据融合、数据集成、数据整合,生成新的数据集,供后续查询、分析、处理提供统一的数据视图

2、存储管理

分布式文件系统 分布式数据库(NEWSQL、NOSQL)

2、计算模式

包括批处理、交互式处理、流式计算、迭代计算、图计算、内存计算

3、分析与挖掘

5、可视化处理

学习大数据开发课程,可以立即咨询在线课程老师,春节前报名可以领取2000元过节大红包!

顶部