大小:30.99M
更新时间:23-09-14
系统:Pc
apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,抽丝拨茧,让读者一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然,从而掌握学习Spark代码。
《apache spark 源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程;第3~5章详细分析了Spark Core中的作业规划、提交及任务执行等内容,对于要深刻把握Spark实现机理的读者来说,这几章值得反复阅读;第6~9章就Spark提供的高级Lib库进行了简要的分析,分析的思路是解决的主要问题是什么、解决的方案是如何产生的,以及方案是如何通过代码来具体实现的。
第一部分 Spark概述 第1章 初识Spark 1.1 大数据和Spark 1.1.1 大数据的由来 1.1.2 大数据的分析 1.1.3 Hadoop 1.1.4 Spark简介 1.2 与Spark的第一次亲密接触 1.2.1 环境准备 1.2.2 下载安装Spark 1.2.3 Spark下的WordCount 第二部分 Spark核心概念 第2章 Spark整体框架 2.1 编程模型 2.1.1 RDD 2.1.2 Operation 2.2 运行框架 2.2.1 作业提交 2.2.2 集群的节点构成 2.2.3 容错处理 2.2.4 为什么是Scala 2.3 源码阅读环境准备 2.3.1 源码下载及编译 2.3.2 源码目录结构 2.3.3 源码阅读工具 2.3.4 本章小结 第3章 SparkContext初始化 3.1 spark-shell 3.2 SparkContext的初始化综述 3.3 Spark Repl综述 3.3.1 Scala Repl执行过程 3.3.2 Spark Repl 第4章 Spark作业提交 4.1 作业提交 4.2 作业执行 4.2.1 依赖性分析及Stage划分 4.2.2 Actor Model和Akka 4.2.3 任务的创建和分发 4.2.4 任务执行 4.2.5 Checkpoint和Cache 4.2.6 WebUI和Metrics 4.3 存储机制 4.3.1 Shuffle结果的写入和读取 4.3.2 Memory Store 4.3.3 存储子模块启动过程分析 4.3.4 数据写入过程分析 4.3.5 数据读取过程分析 4.3.6 TachyonStore 第5章 部署方式分析 5.1 部署模型 5.2 单机模式local 5.3 伪集群部署local-cluster 5.4 原生集群Standalone Cluster 5.4.1 启动Master 5.4.2 启动Worker 5.4.3 运行spark-shell 5.4.4 容错性分析 5.5 Spark On YARN 5.5.1 YARN的编程模型 5.5.2 YARN中的作业提交 5.5.3 Spark On YARN实现详解 5.5.4 SparkPi on YARN 第三部分 Spark Lib 第6章 Spark Streaming 6.1 Spark Streaming整体架构 6.1.1 DStream 6.1.2 编程接口 6.1.3 Streaming WordCount 6.2 Spark Streaming执行过程 6.2.1 StreamingContext初始化过程 6.2.2 数据接收 6.2.3 数据处理 6.2.4 BlockRDD 6.3 窗口操作 6.4 容错性分析 6.5 Spark Streaming vs. Storm 6.5.1 Storm简介 6.5.2 Storm和Spark Streaming对比 6.6 应用举例 6.6.1 搭建Kafka Cluster 6.6.2 KafkaWordCount 第7章 SQL 7.1 SQL语句的通用执行过程分析 7.2 SQL On Spark的实现分析 7.2.1 SqlParser 7.2.2 Analyzer 7.2.3 Optimizer 7.2.4 SparkPlan 7.3 Parquet 文件和JSON数据集 7.4 Hive简介 7.4.1 Hive 架构 7.4.2 HiveQL On MapReduce执行过程分析 7.5 HiveQL On Spark详解 7.5.1 Hive On Spark环境搭建 7.5.2 编译支持Hadoop 2.x的Spark 7.5.3 运行Hive On Spark测试用例 第8章 GraphX 8.1 GraphX简介 8.1.1 主要特点 8.1.2 版本演化 8.1.3 应用场景 8.2 分布式图计算处理技术介绍 8.2.1 属性图 8.2.2 图数据的存储与分割 8.3 Pregel计算模型 8.3.1 BSP 8.3.2 像顶点一样思考 8.4 GraphX图计算框架实现分析 8.4.1 基本概念 8.4.2 图的加载与构建 8.4.3 图数据存储与分割 8.4.4 操作接口 8.4.5 Pregel在GraphX中的源码实现 8.5 PageRank 8.5.1 什么是PageRank 8.5.2 PageRank核心思想 第9章 MLLib 9.1 线性回归 9.1.1 数据和估计 9.1.2 线性回归参数求解方法 9.1.3 正则化 9.2 线性回归的代码实现 9.2.1 简单示例 9.2.2 入口函数train 9.2.3 最优化算法optimizer 9.2.4 权重更新update 9.2.5 结果预测predict 9.3 分类算法 9.3.1 逻辑回归 9.3.2 支持向量机 9.4 拟牛顿法 9.4.1 数学原理 9.4.2 代码实现 9.5 MLLib与其他应用模块间的整合 第四部分 附录 附录A Spark源码调试 附录B 源码阅读技巧
精品推荐
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
06j403-1楼梯栏杆栏板图集.pdf7.97M高清版 06j403-1楼梯栏杆图集是由中国五洲设计研究院与中国建筑标准研究院编官联合编写的一套国家建筑标准设计图集,全称又叫做06j403-1楼梯栏杆栏板(一),是根据建设部建质[2004]46号文“关于发布《二00四国家建筑标准设计编制工作计划》的通知
查看工程地质手册第五版pdf高清电子版83M 工程地质手册第五版是一本最新的地质学参考手册,由中国建筑工业出版社发行,工程地质手册编委会编写,主要介绍工程地质和岩土工程的系统资料和数据,全书知识讲解细致全面,数据精准,适合相关行业的施工技术人员和地质学专业的师生使用。这里小编提供的是工程地质手
查看apache kylin权威指南15.22Mpdf高清版 Apache Kylin是个由中国人主导的Apache项目,apache kylin权威指南则是国内一本由该团队开发的原创图书,全书总共12章,介绍了Apache Kylin的历史、技术原理和产品定位,同时详细解读了Apache Kylin的核心概
查看opencv图像处理编程实例29.2M朱伟pdf扫描版opencv图像处理编程实例是一本OpenCV图像处理编程手册,由朱伟等人编著。本书将理论与实际案例相结合,始终秉承“学以致用”的理念,提供多个颇具实用性和前沿性的实例,用详细的代码验证实现,通过大量的例子让读者边学边练,注重给予读者一定的启发和引导。作
查看spark高级数据分析5.79Mpdf扫描版 spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者
查看计算机主板故障维修全程指导69.44M韩雪涛pdf全彩版 计算机主板故障维修全程指导是一本计算机主板维修实战指导教材,由韩雪涛编著。本书首先将主板的结构特点、故障特性和故障分析做出一一的介绍,再结合实际检修经验,给出检修思路;然后再将主板划分成单元结构,并依据实际案例,通过对实际主板的拆解、检测等一系列操
查看iPhone游戏开发实践指南36.52M戴利pdf扫描版 iPhone游戏开发实践指南是一本iphone游戏开发实践手册,由美国iphone开发程序员戴利编著。本书是新手的完美入门手册。作者将带领你走过开发iPhone热门二维游戏的每个细节。在本书中,你将学习如何构建二维贴图地图游戏Sir Lamorak
查看java 8实战中文版11.05M厄马pdf扫描版Java 8实战是一本java8实战手册,由英国程序员厄马(Raoul-GabrielUrma)编著,陆明刚,劳佳 翻译。本书结构清晰、内容翔实,从实例入手,涵盖Java 8的主要新特性,包括Lambda表达式、方法引用、流、默认方法、Optional、
查看html5移动web开发指南1.99Mpdf完整版html5移动web开发指南是由著名的Web前端工程师唐俊开所编著的,是一门新崛起的语言,现在非常的流行,本书是为从未接触过html5新技术但同时又对移动web技术感兴趣的读者而编写的,同时它也适用于有一定基础或者未来计划的职业是web前端开发工程师、具
查看sql必知必会第4版677Kpdf高清版SQL是使用最为广泛的数据库语言,但想要学习并且使用好并不容易。为此小编带来了sql必知必会第4版,pdf文档格式,全书由浅入深地讲解了SQL的基本概念和语法,涉及数据的排序、过滤和分组,以及表、视图、联结、子查询、游标、存储过程和触发器等内容,实例丰富
查看