大小:21.61M
更新时间:23-09-09
系统:Pc
Spark技术内幕:深入解析Spark内核架构设计与实现原理是一本Spark解析实用教学书籍,由张安站编著,全书详细剖析了Spark内核各个模块,以源码为基础,全面分析了Spark内核的各个模块的设计思想和实现原理,深入理解其内部运作机制乃至实现细节,帮助Spark领域的从业人员全面掌握Spark核心技术,进而在应用开发中做到游刃有余和性能调优时做到有的放矢。
《Spark技术内幕:深入解析Spark内核架构设计与实现原理》以源码为基础,深入分析Spark内核的设计理念和架构实现,系统讲解各个核心模块的实现,为性能调优、二次开发和系统运维提供理论支持;本文最后以项目实战的方式,系统讲解生产环境下Spark应用的开发、部署和性能调优。
本书共分为9章:
第1章介绍了Spark的技术背景和特点,给出了架构的整体概述,并简单介绍了Spark的生态圈。
第2章介绍了Spark源码如何获取和学习环境如何搭建。
第3章是RDD的详细介绍,介绍了RDD的定义和Spark对于DAG的实现,最后通过RDD计算的详细介绍,讲解了Spark对于计算的实现原理。
第4章详细介绍任务调度的实现,包括如何通过DAG来生成计算任务,最后通过“Word Count”来加深对这个实现过程的理解。
第5章介绍了Spark的运行模式,尤其是Standalone模式。Standalone是Spark自身实现的资源管理和调度的模块,这里会详细介绍它的实现原理。
第6章是Executor模块的详细讲解。Executor是最终执行计算任务的单元,这章将详细介绍Executor的实现原理,包括Executor的分配、Task在Executor的详细执行过程。
第7章详细介绍了Spark对于Shuffle的实现原理,包括基于Hash和基于排序的实现。除了详细阐述基于Hash和排序的Shuffle写和Shuffle读之外,还介绍了Shuffle Pluggable框架,为需要实现特定Shuffle逻辑的读者介绍其实现原理。
第8章详细介绍了Spark的Storage模块,在详细介绍了模块的架构后详细解析了不同存储级别的实现细节。
第9章介绍了Spark在百度、腾讯和阿里等国内互联网领域的应用现状。
序 前言 第1章 Spark简介1 1.1Spark的技术背景1 1.2Spark的优点2 1.3Spark架构综述4 1.4Spark核心组件概述5 1.4.1Spark Streaming5 1.4.2MLlib6 1.4.3Spark SQL7 1.4.4 GraphX8 1.5Spark的整体代码结构规模8 第2章 Spark学习环境的搭建9 2.1源码的获取与编译9 2.1.1源码获取9 2.1.2源码编译10 2.2构建Spark的源码阅读环境11 2.3小结15 第3章 RDD实现详解16 3.1概述16 3.2什么是RDD17 3.2.1RDD的创建19 3.2.2RDD的转换20 3.2.3 RDD的动作22 3.2.4RDD的缓存23 3.2.5RDD的检查点24 3.3RDD的转换和DAG的生成25 3.3.1RDD的依赖关系26 3.3.2DAG的生成30 3.3.3Word Count的RDD转换和DAG划分的逻辑视图30 3.4RDD的计算33 3.4.1Task简介33 3.4.2Task的执行起点33 3.4.3缓存的处理35 3.4.4checkpoint的处理37 3.4.5RDD的计算逻辑39 3.5RDD的容错机制39 3.6小结40 第4章 Scheduler 模块详解41 4.1模块概述41 4.1.1整体架构41 4.1.2Scheduler的实现概述43 4.2DAGScheduler实现详解45 4.2.1DAGScheduler的创建46 4.2.2Job的提交48 4.2.3Stage的划分49 4.2.4任务的生成54 4.3任务调度实现详解57 4.3.1TaskScheduler的创建57 4.3.2Task的提交概述58 4.3.3任务调度具体实现61 4.3.4Task运算结果的处理65 4.4Word Count调度计算过程详解72 4.5小结74 第5章 Deploy模块详解76 5.1 Spark运行模式概述76 5.1.1 local77 5.1.2Mesos78 5.1.3YARN82 5.2模块整体架构86 5.3消息传递机制详解87 5.3.1Master和Worker87 5.3.2Master和Client89 5.3.3Client和Executor91 5.4集群的启动92 5.4.1Master的启动92 5.4.2Worker的启动96 5.5集群容错处理98 5.5.1Master 异常退出98 5.5.2Worker异常退出99 5.5.3Executor异常退出101 5.6Master HA实现详解102 5.6.1Master启动的选举和数据恢复策略103 5.6.2集群启动参数的配置105 5.6.3Curator Framework简介 106 5.6.4ZooKeeperLeaderElectionAgent的实现109 5.7小结110 第6章 Executor模块详解112 6.1Standalone模式的Executor分配详解113 6.1.1SchedulerBackend创建AppClient114 6.1.2AppClient向Master注册Application116 6.1.3Master根据AppClient的提交选择Worker119 6.1.4Worker根据Master的资源分配结果创建Executor121 6.2Task的执行122 6.2.1依赖环境的创建和分发123 6.2.2任务执行125 6.2.3任务结果的处理128 6.2.4Driver端的处理130 6.3 参数设置131 6.3.1 spark.executor.memory131 6.3.2日志相关132 6.3.3spark.executor.heartbeatInterval132 6.4小结133 第7章 Shuffle模块详解134 7.1Hash Based Shuffle Write135 7.1.1Basic Shuffle Writer实现解析136 7.1.2存在的问题138 7.1.3Shuffle Consolidate Writer139 7.1.4小结140 7.2Shuffle Pluggable 框架141 7.2.1org.apache.spark.shuffle.ShuffleManager141 7.2.2org.apache.spark.shuffle.ShuffleWriter143 7.2.3org.apache.spark.shuffle.ShuffleBlockManager143 7.2.4org.apache.spark.shuffle.ShuffleReader144 7.2.5如何开发自己的Shuffle机制144 7.3Sort Based Write144 7.4Shuffle Map Task运算结果的处理148 7.4.1Executor端的处理148 7.4.2Driver端的处理150 7.5Shuffle Read152 7.5.1整体流程152 7.5.2数据读取策略的划分155 7.5.3本地读取156 7.5.4远程读取158 7.6性能调优160 7.6.1spark.shuffle.manager160 7.6.2spark.shuffle.spill162 7.6.3spark.shuffle.memoryFraction和spark.shuffle.safetyFraction162 7.6.4spark.shuffle.sort.bypassMergeThreshold 163 7.6.5spark.shuffle.blockTransferService 163 7.6.6spark.shuffle.consolidateFiles 163 7.6.7spark.shuffle.compress和 spark.shuffle.spill.compress164 7.6.8spark.reducer.maxMbInFlight165 7.7小结165 第8章 Storage模块详解167 8.1模块整体架构167 8.1.1整体架构167 8.1.2源码组织结构170 8.1.3Master 和Slave的消息传递详解173 8.2存储实现详解181 8.2.1存储级别181 8.2.2模块类图184 8.2.3org.apache.spark.storage.DiskStore实现详解186 8.2.4org.apache.spark.storage.MemoryStore实现详解188 8.2.5org.apache.spark.storage.TachyonStore实现详解189 8.2.6Block存储的实现190 8.3性能调优194 8.3.1spark.local.dir194 8.3.2spark.executor.memory194 8.3.3spark.storage.memoryFraction194 8.3.4spark.streaming.blockInterval195 8.4小结195 第9章 企业应用概述197 9.1Spark在百度197 9.1.1现状197 9.1.2百度开放云BMR的Spark198 9.1.3在Spark中使用Tachyon199 9.2Spark在阿里200 9.3Spark在腾讯200 9.4小结201
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
同类热门
类似软件
DesignSpark Electrical(电气CAD工具)1.13G167人在用 DesignSpark Electrical是一款专业的电气CAD工具,让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单,功能强大,不管是用户需要的纯设计工具、海量技术信息,还是完整的设计生态系统,软件都可以与用户正在使用的设计
查看apache spark 源码剖析30.99M157人在用apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,
查看spark高级数据分析5.79M285人在用spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了
查看DesignSparkPCB印刷电路板工具137.49M213人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板(PCB)设计工具,能轻松进行原理图捕获,设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看designspark mechanical官方版1.13G2339人在用 designspark mechanical官方版是一款专业的3D设计软件,能帮助设计人员把复杂的工作图分解成简单的草图进行制作,系统构建于AutoCAD平台之上,常用于二维绘图、详细绘制、设计文档和基本三维设计,现已成为国际上广为流行的绘图工具之
查看Spark核心技术与高级应用38.49M189人在用Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。全书不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了Spark SQL、Spark ML、
查看热门标签
网友评论0人参与,0条评论
最新排行
asp.net mvc 5 框架揭秘20.5M蒋金楠 高清扫描版 asp.net mvc 5 框架揭秘是一本ASP.NET MVC框架学习教材,由。net顶级专家蒋金楠编著。本书以消息流向为主线,对新的ASP.NET MVC框架从接收请求到响应回复的整个流程进行了细致而深入的讲解。全书覆盖路由、Controlle
查看asp.net mvc5编程实战第3版67.64M埃斯波西托 pdf扫描版 asp.net mvc5编程实战第3版是一本。NET开发经典名著,由著名的Wed和移动开发专Dino Esposito编著。本书将带你深入了解ASPNET MVC5的架构和特性,并学习构建在桌面和移动设备上都运行良好的Web应用程序。同时将向用户全
查看ASP.NET开发实例大全(基础卷)313.29Mpdf扫描版 ASP.NET开发实例大全(基础卷)是一本ASP.NET开发指导手册,由软件开发技术联盟编著。本书筛选、汇集了ASP.NET开发从基础知识到高级应用各个层面约600个实例及源代码,每个实例都按实例说明、关键技术、设计过程、详尽注释、秘笈心法的顺序进
查看spark高级数据分析5.79Mpdf扫描版spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了
查看人人都是架构师:分布式系统架构落地与瓶颈突破39.95M高翔龙 pdf扫描版人人都是架构师:分布式系统架构落地与瓶颈突破是一本货真价实的互联网场景下大型网站架构演变过程中核心技术难题的解决方案,由高翔龙编著。本书全部来源于作者真实经历的生产案例,大型网站应对高并发、大流量的应急宝典,全书毫无保留地阐述了作者多年在互联网企业的架构
查看hadoop大数据分析与挖掘实战38.23M张良均pdf扫描版hadoop大数据分析与挖掘实战是一本Hadoop大数据分析实战书籍,由张良均,樊哲,赵云龙和李成华四人共同编著。本书以大家熟知的Hadoop技术来展开,理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标
查看数据库索引设计与优化pdf83.37M扫描版数据库索引设计与优化是数据库领域的的重要理论大作,是每一个从事数据库领域工作者必读的一本书,由(美)拉赫登迈奇(Tapio Lahdenmaki),(美)利奇(Michael Leach) 著,曹怡倩,赵建伟翻译,电子工业出版社出版。全书花了大量的篇幅讲
查看深入理解bootstrap pdf完整版76.12M徐涛高清扫描版深入理解bootstrap是一本Bootstrap使用指导手册,由国内资深Web技术专家徐涛编著。本书是根据Bootstrap最新版本撰写的,全书全面讲解了各功能组件的使用方法,以及对现有插件和扩展的二次开发。并且还深入分析了其架构思想和源码实和如何开发
查看ruby入门权威经典13.76M于天恩pdf扫描版 ruby入门权威经典是一本Ruby新手入门必读书籍之一,由于天恩编著。全书内容丰富翔实,包含了必要的理论,但以实践为主,书中含有大量的案例,讲解由浅入深,先介绍概念然后再讲应用,具体内容包括ruby的环境配置、基础知识、高级知识,让读者可以更好的掌
查看数据挖掘实用机器学习工具与技术(原书第3版)131.09M威滕高清扫描版数据挖掘实用机器学习工具与技术(原书第3版)是一本数据挖掘方面的技术书籍,由新西兰程序员威滕(Witten,I.H)编著。本书对上一版内容进行了全面更新,其内容包括数据转换、集成学习、大规模数据集、多实例学习等,以及新版的Weka机器学习软件。作者重点在
查看wcf4高级编程pdf完整版46.4Mwcf 4高级编程是由一本介绍wcf服务编程技术的图书,作者Pablo Cibraro、Krut Claeys、Fabio Cozzolino和Johann Grabner,吴文国译,清华大学出版社发行。全书共14章节,内容包括设计原理与设计模式、服务契
查看灰帽黑客第四版电子书69.63M高清扫描版灰帽黑客 第4版是一本计算机安全方面的专业指南,由Daniel Regalado和Shon Harris两人共同编著,本书的目标是帮助培养更多技术精湛并致力于抵御恶意黑客攻击的安全专家。全书对第3版中的材料进行了更新,并尝试将最新最全的技术、流程、材料以
查看