Hadoop框架主要用来解决海量数据的存储和分析计算问题。是大数据开发工程师所需技术之一。 课程特点: 1、全程案例贯穿始终,几乎每个知识点都有配套的案例; 2、整个框架深入源码讲解; 3、优化措施来源于企业开发; 本课程中你将学习到,Hadoop完全分布式集群搭建、Hadoop源码编译、HDFS的Shell操作、HDFS的API操作、HDFS的IO流操作、HDFS读写数据流程、NameNode和SecondaryNameNode工作机制、DataNode工作机制、集群节点动态服役和退役、HDFS2.x新特性、MapReduce编程规范、自定义序列化、自定义InputFormat、自定义OutputFormat、分区、排序、合并、分组、ReduceJoin、MapJoin、数据清洗、计数器、TopN案例、倒排索引案例、MapTask工作机制、ReduceTask工作机制、Shuffle工作机制、MapReduce工作流程、Job提交流程源码、MapReduce源码、数据压缩、Yarn工作机制、作业提交流程、YARN资源调度器、MapReduce企业优化、HDFS小文件企业优化、数据倾斜优化等。
视频目录 01.课程简介_大数据课程02.课程简介_Hadoop课程03.入门_大数据概念04.入门_大数据特点(4V)05.入门_大数据应用场景06.入门_大数据发展前景07.入门_大数据部门业务流程分析08.入门_大数据部门组织结构(重点)09.是什么10.发展历史11.三大发行版本12.优势(4高)13.1.x和2.x区别14.组成15.大数据技术生态体系16.推荐系统框架图17.环境搭建_虚拟机准备18.环境搭建_JDK安装19.环境搭建_Hadoop安装20.环境搭建_Hadoop目录结构21.环境搭建_Hadoop官网手册22.本地模式_Grep官方案例23.本地模式_WordCount官方案例24.伪分布式_启动HDFS并运行MR程序25.伪分布式_Log日志查看和NN格式化前强调26.伪分布式_NameNode格式化注意事项27.伪分布式_启动YARN并运行MR程序28.伪分布式_配置历史服务器29.伪分布式_配置日志聚集30.伪分布式_配置文件说明31.完全分布式_虚拟机环境准备32.完全分布式_scp案例33.完全分布式_rsync案例34.完全分布式_集群分发脚本xsync35.完全分布式_集群配置36.完全分布式_集群单节点启动37.完全分布式_集群ssh配置38.完全分布式_集群群起39.完全分布式_集群文件存储路径说明40.完全分布式_集群启动停止方式总结41.每日回顾42.完全分布式_RM启动注意事项43.完全分布式_Crondtab定时任务调度44.完全分布式_集群时间同步45.源码编译_意义46.源码编译_说明47.源码编译_具体流程48.HDFS_课程介绍49.HDFS_产生背景及定义50.HDFS_优缺点51.HDFS_组成架构52.HDFS_块的大小设置53.HDFS_Shell命令(开发重点)54.HDFS_副本数设置55.HDFS_客户端环境准备56.HDFS_客户端环境测试57.每日回顾58.HDFS_文件上传_案例59.HDFS_参数优先级说明_案例60.HDFS_文件下载_案例61.HDFS_文件夹删除_案例62.HDFS_修改文件的名称_案例63.HDFS_查看文件的详情_案例64.HDFS_判断是文件还是文件夹_案例65.HDFS_文件IO流上传_案例66.HDFS_文件IO流下载操作_案例67.HDFS_定位读取文件_案例68.HDFS_写数据流程(面试重点)69.HDFS_网络拓扑-节点距离计算70.HDFS_机架感知-副本存储节点选择71.HDFS_读数据流程(面试重点)72.HDFS_NN和2NN工作机制(面试重点)73.HDFS_Fsimage和Edits解析74.HDFS_CheckPoint时间设置75.HDFS_NN故障处理_案例76.HDFS_安全模式77.HDFS_集群安全模式_案例78.HDFS_NN多目录配置_案例79.每日回顾80.HDFS_DN工作机制(面试重点)81.HDFS_数据完整性82.HDFS_掉线时限参数设置83.HDFS_服役新节点_案例84.HDFS_添加白名单_案例85.HDFS_黑名单退役_案例86.HDFS_DN多目录配置_案例87.HDFS新特性_集群间数据拷贝88.HDFS新特性_小文件归档案例89.HDFS新特性_回收站案例90.HDFS新特性_快照管理91.MapReduce_课程介绍92.MapReduce_概述93.MapReduce_优缺点94.MapReduce_核心思想95.MapReduce_进程96.MapReduce_官方案例源码解析和数据类型97.MapReduce_编程规范98.MapReduce_WordCount案例分析99.MapReduce_WordCount案例Mapper100.MapReduce_WordCount案例Reducer101.MapReduce_WordCount案例Driver102.MapReduce_WordCount案例测试103.MapReduce_WordCount案例Debug调试104.MapReduce_WordCount案例在集群上运行105.每日回顾106.MapReduce_序列化概述107.MapReduce_序列化自定义步骤108.MapReduce_序列化案例分析109.MapReduce_序列化案例FlowBean110.MapReduce_序列化案例Mapper111.MapReduce_序列化案例Reducer112.MapReduce_序列化案例Driver113.MapReduce_序列化案例Debug调试114.MapReduce_切片和MapTask并行度决定机制115.MapReduce_Job提交流程源码解析116.MapReduce_Job切片机制源码解析117.MapReduce_FileInputFormat切片机制和配置参数118.MapReduce_CombineTextInputFormat理论119.MapReduce_CombineTextInputFormat案例120.MapReduce_FileInputFormat实现类121.MapReduce_TextInputFormat实现类122.每日回顾123.MapReduce_KeyValueTextInputFormat案例分析124.MapReduce_KeyValueTextInputFormat案例实现125.MapReduce_NLineInputFormat案例分析126.MapReduce_NLineInputFormat案例实现127.MapReduce_自定义InputFormat步骤128.MapReduce_自定义InputFormat案例129.MapReduce_自定义InputFormat案例Debug130.MapReduce_InputFormat实现类总结131.MapReduce_工作流程(面试重点)132.MapReduce_Shuffle机制(面试重点)133.MapReduce_HashPartition默认分区134.MapReduce_Partition分区案例135.MapReduce_Partition分区案例总结136.每日回顾137.MapReduce_回顾分区138.MapReduce_排序概述139.MapReduce_排序分类140.MapReduce_全排序案例分析141.MapReduce_全排序案例FlowBean142.MapReduce_全排序案例Mapper143.MapReduce_全排序案例Mapper_已处理144.MapReduce_全排序案例实现及测试145.MapReduce_分区排序案例实现及测试146.MapReduce_Debug调试思想147.MapReduce_Combiner理论148.MapReduce_Combiner案例实现149.MapReduce_分组排序案例分析150.MapReduce_分组排序案例OrderBean151.MapReduce_分组排序案例Mapper152.MapReduce_分组排序案例Driver153.MapReduce_分组排序案例排序类154.MapReduce_分组排序案例调试155.MapReduce_分组排序案例扩展156.MapReduce_MapTask工作机制(面试重点)157.MapReduce_ReduceTask工作机制(面试重点)158.MapReduce_ReduceTask个数设置159.MapReduce_Shuffle机制(面试重点)160.MapReduce_工作流程源码分析161.MapReduce_OutPutFormat接口实现类162.MapReduce_自定义OutputFormat案例分析163.MapReduce_自定义OutputFormat案例实现164.MapReduce_ReduceJoin理论165.MapReduce_ReduceJoin案例分析166.MapReduce_ReduceJoin案例TableBean167.MapReduce_ReduceJoin案例Mapper168.MapReduce_ReduceJoin案例Reduce169.MapReduce_ReduceJoin案例Driver170.MapReduce_ReduceJoin案例Debug和总结171.MapReduce_MapJoin案例分析172.MapReduce_MapJoin案例缓存文件处理173.MapReduce_MapJoin案例测试174.MapReduce_计数器应用175.MapReduce_数据清洗案例176.MapReduce_开发总结177.压缩_概述178.压缩_MR支持的压缩编码179.压缩_方式选择180.压缩_位置选择181.压缩_参数设置182.压缩_Hadoop_压缩案例183.压缩_解压缩案例184.压缩_Map和Reduce启用压缩案例185.YARN_基本架构186.YARN_工作机制187.YARN_作业提交全流程188.YARN_资源调度器189.YARN_任务推测执行190.企业调优_MR跑的慢的原因191.企业调优_MR优化方法192.企业调优_Hadoop_HDFS小文件处理193.扩展案例_多Job串联案例分析194.扩展案例_多Job串联案例第一个Job195.扩展案例_多Job串联案例完成196.扩展案例_TopN案例197.扩展案例_找共同粉丝(学生版1)198.扩展案例_找共同粉丝(学生版2)199.总结_企业真实面试题讲解200.总结_开发重点