大小:30.99M
更新时间:23-09-14
系统:Pc
apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,抽丝拨茧,让读者一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然,从而掌握学习Spark代码。

《apache spark 源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程;第3~5章详细分析了Spark Core中的作业规划、提交及任务执行等内容,对于要深刻把握Spark实现机理的读者来说,这几章值得反复阅读;第6~9章就Spark提供的高级Lib库进行了简要的分析,分析的思路是解决的主要问题是什么、解决的方案是如何产生的,以及方案是如何通过代码来具体实现的。
第一部分 Spark概述 第1章 初识Spark 1.1 大数据和Spark 1.1.1 大数据的由来 1.1.2 大数据的分析 1.1.3 Hadoop 1.1.4 Spark简介 1.2 与Spark的第一次亲密接触 1.2.1 环境准备 1.2.2 下载安装Spark 1.2.3 Spark下的WordCount 第二部分 Spark核心概念 第2章 Spark整体框架 2.1 编程模型 2.1.1 RDD 2.1.2 Operation 2.2 运行框架 2.2.1 作业提交 2.2.2 集群的节点构成 2.2.3 容错处理 2.2.4 为什么是Scala 2.3 源码阅读环境准备 2.3.1 源码下载及编译 2.3.2 源码目录结构 2.3.3 源码阅读工具 2.3.4 本章小结 第3章 SparkContext初始化 3.1 spark-shell 3.2 SparkContext的初始化综述 3.3 Spark Repl综述 3.3.1 Scala Repl执行过程 3.3.2 Spark Repl 第4章 Spark作业提交 4.1 作业提交 4.2 作业执行 4.2.1 依赖性分析及Stage划分 4.2.2 Actor Model和Akka 4.2.3 任务的创建和分发 4.2.4 任务执行 4.2.5 Checkpoint和Cache 4.2.6 WebUI和Metrics 4.3 存储机制 4.3.1 Shuffle结果的写入和读取 4.3.2 Memory Store 4.3.3 存储子模块启动过程分析 4.3.4 数据写入过程分析 4.3.5 数据读取过程分析 4.3.6 TachyonStore 第5章 部署方式分析 5.1 部署模型 5.2 单机模式local 5.3 伪集群部署local-cluster 5.4 原生集群Standalone Cluster 5.4.1 启动Master 5.4.2 启动Worker 5.4.3 运行spark-shell 5.4.4 容错性分析 5.5 Spark On YARN 5.5.1 YARN的编程模型 5.5.2 YARN中的作业提交 5.5.3 Spark On YARN实现详解 5.5.4 SparkPi on YARN 第三部分 Spark Lib 第6章 Spark Streaming 6.1 Spark Streaming整体架构 6.1.1 DStream 6.1.2 编程接口 6.1.3 Streaming WordCount 6.2 Spark Streaming执行过程 6.2.1 StreamingContext初始化过程 6.2.2 数据接收 6.2.3 数据处理 6.2.4 BlockRDD 6.3 窗口操作 6.4 容错性分析 6.5 Spark Streaming vs. Storm 6.5.1 Storm简介 6.5.2 Storm和Spark Streaming对比 6.6 应用举例 6.6.1 搭建Kafka Cluster 6.6.2 KafkaWordCount 第7章 SQL 7.1 SQL语句的通用执行过程分析 7.2 SQL On Spark的实现分析 7.2.1 SqlParser 7.2.2 Analyzer 7.2.3 Optimizer 7.2.4 SparkPlan 7.3 Parquet 文件和JSON数据集 7.4 Hive简介 7.4.1 Hive 架构 7.4.2 HiveQL On MapReduce执行过程分析 7.5 HiveQL On Spark详解 7.5.1 Hive On Spark环境搭建 7.5.2 编译支持Hadoop 2.x的Spark 7.5.3 运行Hive On Spark测试用例 第8章 GraphX 8.1 GraphX简介 8.1.1 主要特点 8.1.2 版本演化 8.1.3 应用场景 8.2 分布式图计算处理技术介绍 8.2.1 属性图 8.2.2 图数据的存储与分割 8.3 Pregel计算模型 8.3.1 BSP 8.3.2 像顶点一样思考 8.4 GraphX图计算框架实现分析 8.4.1 基本概念 8.4.2 图的加载与构建 8.4.3 图数据存储与分割 8.4.4 操作接口 8.4.5 Pregel在GraphX中的源码实现 8.5 PageRank 8.5.1 什么是PageRank 8.5.2 PageRank核心思想 第9章 MLLib 9.1 线性回归 9.1.1 数据和估计 9.1.2 线性回归参数求解方法 9.1.3 正则化 9.2 线性回归的代码实现 9.2.1 简单示例 9.2.2 入口函数train 9.2.3 最优化算法optimizer 9.2.4 权重更新update 9.2.5 结果预测predict 9.3 分类算法 9.3.1 逻辑回归 9.3.2 支持向量机 9.4 拟牛顿法 9.4.1 数学原理 9.4.2 代码实现 9.5 MLLib与其他应用模块间的整合 第四部分 附录 附录A Spark源码调试 附录B 源码阅读技巧
应用信息
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
05s502室外给水管道附属构筑物图集6.19M 05s502图集全称为05s502室外给水管道附属构筑物图集,是由中国建筑标准设计研究院组织编写的一款国标排水图集文档,详细的描画排水系统的标准和相关设计内容,其中包括砖砌圆形立式闸阀井、砖砌水表井、钢筋混凝土矩形水表井等,主要适用于城镇、小区及工
查看
深入浅出wpf pdf完整版43.27M WPF(Windows Presentation Foundation)是微软未来发展的一个重要趋势,自从WIN7操作系统发布以来,甚至在前不久发布的WIN8操作系统中,WPF一直作为其核心技术。在深入浅出wpf pdf完整版的教程中,作者主要对自
查看
asp.net从入门到精通第2版153.34Mpdf高清版目前网站开发最流行的就是使用asp.net语言,因为该语言具有方便性、灵活性、性能优,生产效率高、安全性高、完整性强及面向对象等特性,但如何才能学习好asp.net呢?在此小编向广大网友推荐使用asp.net从入门到精通第2版,该书是目前最优秀的学习as
查看
linux shell编程从入门到精通44.95M张昊pdf扫描版 linux shell编程从入门到精通是linux Shell编程的入门书籍,由浅入深,循序渐进的讲解了linux Shell编程的基本知识,这些基本知识包括Shell编程的基础知识、文本处理的工具和方法、正则表达式、linux系统知识等。每一章节
查看
axure rp网站与app设计从入门到精通131.63M刘刚pdf全彩版axure rp网站与app设计从入门到精通是一本Axure使用指导手册,由刘刚编著。全书内容丰富翔实,分共为基础篇和实战篇。基础篇介绍工具的使用,先讲述简单操作,然后逐步过渡到复杂操作、高级交互效果。实战篇介绍了不同类型的原型设计,帮助读者拓宽设计思路
查看
人人都是架构师:分布式系统架构落地与瓶颈突破39.95M高翔龙 pdf扫描版 人人都是架构师:分布式系统架构落地与瓶颈突破是一本货真价实的互联网场景下大型网站架构演变过程中核心技术难题的解决方案,由高翔龙编著。本书全部来源于作者真实经历的生产案例,大型网站应对高并发、大流量的应急宝典,全书毫无保留地阐述了作者多年在互联网企业
查看
android智能穿戴设备开发从入门到精通87.01M android智能穿戴设备开发从入门到精通是一本安卓智能化穿戴设备设计手册,由张明星和孙娇两人共同编著。本书详细讲解了Android开发技术基础,Android技术核心框架分析,HTTP数据通信,使用Socket实现数据通信,下载远程数据,上传数据
查看
数据可视化实战使用d3设计交互式图表8.62M莫瑞高清扫描版 数据可视化实战使用d3设计交互式图表是国内探讨在浏览器中实现动态数据可视化的经典图书,由美国程序员Scott Murray 编著。本书内容丰富翔实,主要介绍javaScript的数据可视化库D3,它可以把数据加载到网页中并基于数据生成各种图表。作者
查看
深入解析oracle.dba入门进阶与诊断案例88.47M盖国强pdf扫描版 深入解析oracle.dba入门进阶与诊断案例是一本Oracle数据库深度解析书籍,由盖国强编著。本书内容丰富翔实,从基础知识入手,再进行深入研究,结合性能调整、诊断案例实践,将Oracle知识全面、系统、深入地展现给读者。全书内容更涉及Oracl
查看
c语言从入门到精通(第1版)44.77Mpdf高清扫描版 C语言从入门到精通是由韩旭、王娣编写的一本非常适用于C语言初学者的学习书籍,清华大学出版社出版,书中除了对C语言的语法做了详细的介绍,还对一些高级应用,如:网络套接字编程,内存管理,数组指针,还做一些简单学生实验课程。 本书从初学者的角
查看
python数据分析与挖掘实战46.76M张良均pdf扫描版 python数据分析与挖掘实战是一本python语言数据分析和挖掘指南,由张良均,王路,谭立云和苏剑林等十余个专家编著而成。本书以大家熟知的数据挖掘建模工具Python语言来展开,以解决某个应用的挖掘目标为前提,先介绍案例背景提出挖掘目标,再阐述分
查看