大小:30.99M
更新时间:23-09-14
系统:Pc
版本:v
apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,抽丝拨茧,让读者一步步寻找答案,所有问题迎刃而解,使读者知其然更知其所以然,从而掌握学习Spark代码。
《apache spark 源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。本书第1章和第2章简要介绍了大数据分析技术的产生背景和演进过程;第3~5章详细分析了Spark Core中的作业规划、提交及任务执行等内容,对于要深刻把握Spark实现机理的读者来说,这几章值得反复阅读;第6~9章就Spark提供的高级Lib库进行了简要的分析,分析的思路是解决的主要问题是什么、解决的方案是如何产生的,以及方案是如何通过代码来具体实现的。
第一部分 Spark概述 第1章 初识Spark 1.1 大数据和Spark 1.1.1 大数据的由来 1.1.2 大数据的分析 1.1.3 Hadoop 1.1.4 Spark简介 1.2 与Spark的第一次亲密接触 1.2.1 环境准备 1.2.2 下载安装Spark 1.2.3 Spark下的WordCount 第二部分 Spark核心概念 第2章 Spark整体框架 2.1 编程模型 2.1.1 RDD 2.1.2 Operation 2.2 运行框架 2.2.1 作业提交 2.2.2 集群的节点构成 2.2.3 容错处理 2.2.4 为什么是Scala 2.3 源码阅读环境准备 2.3.1 源码下载及编译 2.3.2 源码目录结构 2.3.3 源码阅读工具 2.3.4 本章小结 第3章 SparkContext初始化 3.1 spark-shell 3.2 SparkContext的初始化综述 3.3 Spark Repl综述 3.3.1 Scala Repl执行过程 3.3.2 Spark Repl 第4章 Spark作业提交 4.1 作业提交 4.2 作业执行 4.2.1 依赖性分析及Stage划分 4.2.2 Actor Model和Akka 4.2.3 任务的创建和分发 4.2.4 任务执行 4.2.5 Checkpoint和Cache 4.2.6 WebUI和Metrics 4.3 存储机制 4.3.1 Shuffle结果的写入和读取 4.3.2 Memory Store 4.3.3 存储子模块启动过程分析 4.3.4 数据写入过程分析 4.3.5 数据读取过程分析 4.3.6 TachyonStore 第5章 部署方式分析 5.1 部署模型 5.2 单机模式local 5.3 伪集群部署local-cluster 5.4 原生集群Standalone Cluster 5.4.1 启动Master 5.4.2 启动Worker 5.4.3 运行spark-shell 5.4.4 容错性分析 5.5 Spark On YARN 5.5.1 YARN的编程模型 5.5.2 YARN中的作业提交 5.5.3 Spark On YARN实现详解 5.5.4 SparkPi on YARN 第三部分 Spark Lib 第6章 Spark Streaming 6.1 Spark Streaming整体架构 6.1.1 DStream 6.1.2 编程接口 6.1.3 Streaming WordCount 6.2 Spark Streaming执行过程 6.2.1 StreamingContext初始化过程 6.2.2 数据接收 6.2.3 数据处理 6.2.4 BlockRDD 6.3 窗口操作 6.4 容错性分析 6.5 Spark Streaming vs. Storm 6.5.1 Storm简介 6.5.2 Storm和Spark Streaming对比 6.6 应用举例 6.6.1 搭建Kafka Cluster 6.6.2 KafkaWordCount 第7章 SQL 7.1 SQL语句的通用执行过程分析 7.2 SQL On Spark的实现分析 7.2.1 SqlParser 7.2.2 Analyzer 7.2.3 Optimizer 7.2.4 SparkPlan 7.3 Parquet 文件和JSON数据集 7.4 Hive简介 7.4.1 Hive 架构 7.4.2 HiveQL On MapReduce执行过程分析 7.5 HiveQL On Spark详解 7.5.1 Hive On Spark环境搭建 7.5.2 编译支持Hadoop 2.x的Spark 7.5.3 运行Hive On Spark测试用例 第8章 GraphX 8.1 GraphX简介 8.1.1 主要特点 8.1.2 版本演化 8.1.3 应用场景 8.2 分布式图计算处理技术介绍 8.2.1 属性图 8.2.2 图数据的存储与分割 8.3 Pregel计算模型 8.3.1 BSP 8.3.2 像顶点一样思考 8.4 GraphX图计算框架实现分析 8.4.1 基本概念 8.4.2 图的加载与构建 8.4.3 图数据存储与分割 8.4.4 操作接口 8.4.5 Pregel在GraphX中的源码实现 8.5 PageRank 8.5.1 什么是PageRank 8.5.2 PageRank核心思想 第9章 MLLib 9.1 线性回归 9.1.1 数据和估计 9.1.2 线性回归参数求解方法 9.1.3 正则化 9.2 线性回归的代码实现 9.2.1 简单示例 9.2.2 入口函数train 9.2.3 最优化算法optimizer 9.2.4 权重更新update 9.2.5 结果预测predict 9.3 分类算法 9.3.1 逻辑回归 9.3.2 支持向量机 9.4 拟牛顿法 9.4.1 数学原理 9.4.2 代码实现 9.5 MLLib与其他应用模块间的整合 第四部分 附录 附录A Spark源码调试 附录B 源码阅读技巧
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
android 6开发秘籍(第5版)73.87M郭华丰 pdf扫描版 android 6开发秘籍(第5版)是一本基于Android Studio的Android开发入门精品指南,由[美]Joseph Annuzzi.Jr.,Lauren Darcey等编著,郭华丰、刘杰、周云龙共同翻译。本书的侧重点在于Android
查看c++程序设计语言(第4部分:标准库)68.02M原书第4版c++程序设计语言(第4部分:标准库)是C++之父Bjarne Stroustrup编写的全新作品,也是通常用户所说的c++程序设计语言第四版,是无可替代的C++领域经典的参考书,详细的介绍C++11的各项新特性、功能等。全书知识结构完整,对C++语言介
查看bios中英文对照表大全658K8篇想要学习电脑维护,首先需要的就是要看得懂bios设置,但一般都是英文的,对于英文不好的同学有点难度。为此小编特别带来了bios中英文对照表8篇给广大网友,包括bios中英文对照表、BIOS基本知识及常用设置、电脑主板BIOS设置详解-BIOS知识大全、系
查看Oracle数据库备份恢复与迁移71.47M刘宪军pdf扫描版 Oracle数据库备份恢复与迁移是一本Oracle数据库数据管理书籍,由刘宪军编著,本书的编写目的,并不在于简单介绍 Oracle 所提供的备份、恢复与迁移方法,而是告诉大家,在什么情况下使用什么方法,为什么使用这样的方法。全书提供了Oracle数
查看ansible自动化运维技术与最佳实践28.97M陈金窗pdf扫描版ansible自动化运维技术与最佳实践由一线运维人员陈金窗,沈灿和刘政委三人联手打造。本书通过大量实例,详细讲解Ansible自动化运维方式与技巧。从基础的架构解析、安装配置,到典型应用场景与案例分析,作者分享了自己在工作中的实战经验,是掌握大规模集群运
查看c++反汇编与逆向分析技术揭秘56.61M钱林松pdf扫描版c++反汇编与逆向分析技术揭秘是一本C++反汇编与逆向分析技术学习书籍,由钱林松和赵海旭两人共同编著。本书是一本能为程序员(尤其是C++程序员)打牢基础的专业书籍,它将引导你一步一步去深入探究和分析程序的本质,从而逐渐让你在专业上感到踏实和自信,并在这个
查看c#深入详解百问百答百例106.77M王寅永pdf扫描版c#深入详解百问百答百例是C#初学者的入门指导书,由王寅永、李降宇和李广歌三人共同编著,本书内容丰富,结构清晰,全书结合了作者多年的开发和教学经验,从最基本的理论概念到实践样例,从最简单的C#编程知识到最复杂的技术领域,都对C#编程语言进行了介绍和分析,
查看C#程序设计及应用教程(第2版)28.33M马骏pdf扫描版C#程序设计及应用教程(第2版)是一本C#语言程序设计和应用开发教程,由马骏编著。本书内容丰富简洁、对一些初学者比较难以理解的知识点,尽量用简洁、形象而又浅显易懂的语言来表达。比如泛型、接口、组件、特性、纹理、图形图像用法等。但书中的某些重点章节则会以图
查看linux大棚命令百篇(下)33.78M吴鹏冲pdf扫描版linux大棚命令百篇(下)是一本Linux命令大全指南,由吴鹏冲,杨文强和张昱三人共同编著。本书作者运用十分幽默风趣的语言,从Shell命令开始,介绍了文件编辑与内容处理,文件的查找、压缩与硬盘管理,网络相关命令,进程与性能调优,Linux 系统管理等
查看