大小:47.7M
更新时间:23-08-29
系统:Pc
图解Spark:核心技术与案例实战是一本Spark实战书籍,由郭景瞻编著。本书以图形化方式全面讲解了Spark生态系统,从入门应用到内核原理解析,并配合大量的实例,全书编排合理,初学者可以根据作者的引导一步步成长为Spark的开发高手,有经验的开发者也可以通过本书进一步了解Spark的内在机制,从而帮助读者去解决实际工作中的棘手问题,或者深入地优化应用的性能,欢迎学习Spark的朋友免费下载阅读。
《图解Spark:核心技术与案例实战》以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括了Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。
《图解Spark:核心技术与案例实战》从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外本书还应用了大量的图表进行说明,通过这种方式让读者能够更加直观地理解Spark 相关原理。
第1章 Spark及其生态圈概述 1.1 Spark简介 1.1.1 什么是Spark 1.1.2 Spark与MapReduce比较 1.1.3 Spark的演进路线图 1.2 Spark生态系统 1.2.1 Spark Core 1.2.2 Spark Streaming 1.2.3 Spark SQL 1.2.4 BlinkDB 1.2.5 MLBase/MLlib 1.2.6 GraphX 1.2.7 SparkR 1.2.8 Alluxio 1.3 小结 第2章 搭建Spark实战环境 2.1 基础环境搭建 2.1.1 搭建集群样板机 2.1.2 配置集群环境 2.2 编译Spark源代码 2.2.1 配置Spark编译环境 2.2.2 使用Maven编译Spark 2.2.3 使用SBT编译Spark 2.2.4 生成Spark部署包 2.3 搭建Spark运行集群 2.3.1 修改配置文件 2.3.2 启动Spark 2.3.3 验证启动 2.3.4 第一个实例 2.4 搭建Spark实战开发环境 2.4.1 CentOS中部署IDEA 2.4.2 使用IDEA开发程序 2.4.3 使用IDEA阅读源代码 2.5 小结 第二篇 核心篇 第3章 Spark编程模型 3.1 RDD概述 3.1.1 背景 3.1.2 RDD简介 3.1.3 RDD的类型 3.2 RDD的实现 3.2.1 作业调度 3.2.2 解析器集成 3.2.3 内存管理 3.2.4 检查点支持 3.2.5 多用户管理 3.3 编程接口 3.3.1 RDD分区(Partitions) 3.3.2 RDD首选位置(PreferredLocations) 3.3.3 RDD依赖关系(Dependencies) 3.3.4 RDD分区计算(Iterator) 3.3.5 RDD分区函数(Partitioner) 3.4 创建操作 3.4.1 并行化集合创建操作 3.4.2 外部存储创建操作 3.5 转换操作 3.5.1 基础转换操作 3.5.2 键值转换操作 3.6 控制操作 3.7 行动操作 3.7.1 集合标量行动操作 3.7.2 存储行动操作 3.8 小结 第4章 Spark核心原理 4.1 消息通信原理 4.1.1 Spark消息通信架构 4.1.2 Spark启动消息通信 4.1.3 Spark运行时消息通信 4.2 作业执行原理 4.2.1 概述 4.2.2 提交作业 4.2.3 划分调度阶段 4.2.4 提交调度阶段 4.2.5 提交任务 4.2.6 执行任务 4.2.7 获取执行结果 4.3 调度算法 4.3.1 应用程序之间 4.3.2 作业及调度阶段之间 4.3.3 任务之间 4.4 容错及HA 4.4.1 Executor异常 4.4.2 Worker异常 4.4.3 Master异常 4.5 监控管理 4.5.1 UI监控 4.5.2 Metrics 4.5.3 REST 4.6 实例演示 4.6.1 计算年降水实例 4.6.2 HA配置实例 4.7 小结 第5章 Spark存储原理 5.1 存储分析 5.1.1 整体架构 5.1.2 存储级别 5.1.3 RDD存储调用 5.1.4 读数据过程 5.1.5 写数据过程 5.2 Shuffle分析 5.2.1 Shuffle简介 5.2.2 Shuffle的写操作 5.2.3 Shuffle的读操作 5.3 序列化和压缩 5.3.1 序列化 5.3.2 压缩 5.4 共享变量 5.4.1 广播变量 5.4.2 累加器 5.5 实例演示 5.6 小结 第6章 Spark运行架构 6.1 运行架构总体介绍 6.1.1 总体介绍 6.1.2 重要类介绍 6.2 本地(Local)运行模式 6.2.1 运行模式介绍 6.2.2 实现原理 6.3 伪分布(Local-Cluster)运行模式 6.3.1 运行模式介绍 6.3.2 实现原理 6.4 独立(Standalone)运行模式 6.4.1 运行模式介绍 6.4.2 实现原理 6.5 YARN运行模式 6.5.1 YARN运行框架 6.5.2 YARN-Client运行模式介绍 6.5.3 YARN-Client 运行模式实现原理 6.5.4 YARN-Cluster运行模式介绍 6.5.5 YARN-Cluster 运行模式实现原理 6.5.6 YARN-Client与YARN-Cluster对比 6.6 Mesos运行模式 6.6.1 Mesos介绍 6.6.2 粗粒度运行模式介绍 6.6.3 粗粒度实现原理 6.6.4 细粒度运行模式介绍 6.6.5 细粒度实现原理 6.6.6 Mesos粗粒度和Mesos细粒度对比 6.7 实例演示 6.7.1 独立运行模式实例 6.7.2 YARN-Client实例 6.7.3 YARN-Cluster实例 6.8 小结 第三篇 组件篇 第7章 Spark SQL 7.1 Spark SQL简介 7.1.1 Spark SQL发展历史 7.1.2 DataFrame/Dataset介绍 7.2 Spark SQL运行原理 7.2.1 通用SQL执行原理 7.2.2 SparkSQL运行架构 7.2.3 SQLContext运行原理分析 7.2.4 HiveContext介绍 7.3 使用Hive-Console 7.3.1 编译Hive-Console 7.3.2 查看执行计划 7.3.3 应用Hive-Console 7.4 使用SQLConsole 7.4.1 启动HDFS和Spark Shell 7.4.2 与RDD交互操作 7.4.3 读取JSON格式数据 7.4.4 读取Parquet格式数据 7.4.5 缓存演示 7.4.6 DSL演示 7.5 使用Spark SQL CLI 7.5.1 配置并启动Spark SQL CLI 7.5.2 实战Spark SQL CLI 7.6 使用Thrift Server 7.6.1 配置并启动Thrift Server 7.6.2 基本操作 7.6.3 交易数据实例 7.6.4 使用IDEA开发实例 7.7 实例演示 7.7.1 销售数据分类实例 7.7.2 网店销售数据统计 7.8 小结 第8章 Spark Streaming 8.1 Spark Streaming简介 8.1.1 术语定义 8.1.2 Spark Streaming特点 8.2 Spark Streaming编程模型 8.2.1 DStream的输入源 8.2.2 DStream的操作 8.3 Spark Streaming运行架构 8.3.1 运行架构 8.3.2 消息通信 8.3.3 Receiver分发 8.3.4 容错性 8.4 Spark Streaming运行原理 8.4.1 启动流处理引擎 8.4.2 接收及存储流数据 8.4.3 数据处理 8.5 实例演示 8.5.1 流数据模拟器 8.5.2 销售数据统计实例 8.5.3 Spark Streaming+Kafka实例 8.6 小结 第9章 Spark MLlib 9.1 Spark MLlib简介 9.1.1 Spark MLlib介绍 9.1.2 Spark MLlib数据类型 9.1.3 Spark MLlib基本统计方法 9.1.4 预言模型标记语言 9.2 线性模型 9.2.1 数学公式 9.2.2 线性回归 9.2.3 线性支持向量机 9.2.4 逻辑回归 9.2.5 线性最小二乘法、Lasso和岭回归 9.2.6 流式线性回归 9.3 决策树 9.4 决策模型组合 9.4.1 随机森林 9.4.2 梯度提升决策树 9.5 朴素贝叶斯 9.6 协同过滤 9.7 聚类 9.7.1 K-means 9.7.2 高斯混合 9.7.3 快速迭代聚类 9.7.4 LDA 9.7.5 二分K-means 9.7.6 流式K-means 9.8 降维 9.8.1 奇异值分解降维 9.8.2 主成分分析降维 9.9 特征提取和变换 9.9.1 词频―逆文档频率 9.9.2 词向量化工具 9.9.3 标准化 9.9.4 范数化 9.10 频繁模式挖掘 9.10.1 频繁模式增长 9.10.2 关联规则挖掘 9.10.3 PrefixSpan 9.11 实例演示 9.11.1 K-means聚类算法实例 9.11.2 手机短信分类实例 9.12 小结 第10章 Spark GraphX 10.1 GraphX介绍 10.1.1 图计算 10.1.2 GraphX介绍 10.1.3 发展历程 10.2 GraphX实现分析 10.2.1 GraphX图数据模型 10.2.2 GraphX图数据存储 10.2.3 GraphX图切分策略 10.2.4 GraphX图操作 10.3 实例演示 10.3.1 图例演示 10.3.2 社区发现演示 10.4 小结 第11章 SparkR 11.1 概述 11.1.1 R语言介绍 11.1.2 SparkR介绍 11.2 SparkR与DataFrame 11.2.1 DataFrames介绍 11.2.2 与DataFrame的相关操作 11.3 编译安装SparkR 11.3.1 编译安装R语言 11.3.2 安装SparkR运行环境 11.3.3 安装SparkR 11.3.4 启动并验证安装 11.4 实例演示 11.5 小结 第12章 Alluxio 12.1 Alluxio简介 12.1.1 Alluxio介绍 12.1.2 Alluxio系统架构 12.1.3 HDFS与Alluxio 12.2 Alluxio编译部署 12.2.1 编译Alluxio 12.2.2 单机部署Alluxio 12.2.3 集群模式部署Alluxio 12.3 Alluxio命令行使用 12.3.1 接口说明 12.3.2 接口操作示例 12.4 实例演示 12.4.1 启动环境 12.4.2 Alluxio上运行Spark 12.4.3 Alluxio上运行MapReduce 12.5 小结
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读试读
精品推荐
同类热门
类似软件
PDF生成器(PDFCreator)41.9M1058人在用PDF生成器(PDFCreator)是一个开源应用程序,支持windows打印功能的任何程序都可以使用它创建PDF文档。使用PDFCreator能够创建PDF文档,Postscript文档,Encapsulated Postscript&nbs
查看ApowerPDF(PDF编辑器)13.58M2563人在用 ApowerPDF是由Apowersoft有限公司开发的一款功能十分强大的PDF编辑器,该软件集PDF阅读、转换、编辑以及分割合并等功能为一体,有着非常简洁明了的操作界面,设计得出人性化。软件为用户提供了多样化的PDF编辑功能,您可以使用它轻松编辑
查看eXPert PDF Reader(免费的PDF阅读器)29M694人在用 eXPert PDF Reader是一款完全免费的PDF阅读器,支持查看和打印PDF文件,修改现有文件,包括修改文件概述,插入图章和修改任何注释等,运行速度快,稳定和个性化的换肤功能以及对中日韩文的良好支持将满足你所有的需求,软件完全免费,操作简单
查看热门标签
网友评论1人参与,1条评论
最新排行
asp.net mvc 5 框架揭秘20.5M蒋金楠 高清扫描版 asp.net mvc 5 框架揭秘是一本ASP.NET MVC框架学习教材,由。net顶级专家蒋金楠编著。本书以消息流向为主线,对新的ASP.NET MVC框架从接收请求到响应回复的整个流程进行了细致而深入的讲解。全书覆盖路由、Controlle
查看asp.net mvc5编程实战第3版67.64M埃斯波西托 pdf扫描版 asp.net mvc5编程实战第3版是一本。NET开发经典名著,由著名的Wed和移动开发专Dino Esposito编著。本书将带你深入了解ASPNET MVC5的架构和特性,并学习构建在桌面和移动设备上都运行良好的Web应用程序。同时将向用户全
查看尼康d800使用说明书21.81Mpdf电子版尼康d800说明书是尼康官方针对尼康d800单反相机而开发的使用说明书,同时适用于d800和d800e,详细的介绍了相机的使用方法,包括如何快速开始指南,即时取景拍摄,动画即时取景,对焦,释放模式,iso感光度,曝光,白平衡,图像增强,闪光拍摄等等重要知
查看鸟哥的linux私房菜服务器架设篇(第2版)67.26Mpdf扫描版鸟哥的linux私房菜服务器架设篇(第2版)是一本linux服务器架设教材书籍,由linux专家鸟哥编著。本书是前作的升级版本,根据服务器与网络环境做了大幅度的修订与改写,主要介绍了架站之前所需的技能分析、网络基本概念、linux常用的网络命令、主机的简
查看ASP.NET MVC2开发实战28.67M黄保翕pdf扫描版 ASP.NET MVC2开发实战是一本ASP.NET MVC2技术的开发设计指导书籍,由黄保翕编著。全书将内容分为基础观念篇、技术讲解篇和开发实战篇,其中基础观念篇主要介绍了MVC架构的基础知识;技术讲解篇对ASP.NET MVC 2的各项开发技术
查看jsp应用开发详解 第三版41.09M刘晓华pdf扫描版jsp应用开发详解 第三版是一本JSP应用开发详解书籍,由刘晓华等人编著。本书结合JSP和Servlet的最新规范,从基本的语法和规范入手,以经验为后盾,以实用为目标,以实例为导向,以实践为指导,深入浅出地讲解了JSP开发中的种种问题。以精简的内容介绍了
查看云计算架构技术与实践(第2版)6.16M顾炯炯pdf扫描版 云计算架构技术与实践(第2版)是一本云架构技术教材,由华为首席架构师顾炯炯编著。本书内容丰富翔实,主要讲解了云计算的存储、网络、数据、管理、接入、安全等内容,同时增加了云计算前言创新领域热点技术,分享了华为云计算核心竞争力构建与价值转化经验,以及介
查看正则表达式经典实例第2版43.18Mpdf高清扫描版 正则表达式经典实例第2版是一本正则表达式学习教材,由美国程序员Jan Goyvaerts编著。本书内容丰富,为读者提供了100多个正则表达式的使用实例,来教会读者如何正确的使用正则表达式来处理数据和文本,并且能够熟练的掌握它们,从而避免发生代码错误
查看建筑工程管理与实务2017版电子版55.03M高清版 建筑工程管理与实务2017版电子版是一本pdf的电子图书,全高清格式。本款图书遵循建造师考试原则,参照2016年新颁布的法律法规、新施行的标准规范,由中国建筑股份有限公司牵头组织业内专家及相关大专院校学者对《建筑工程管理与实务》一书进行了修谭,用于
查看hadoop实战第2版179.03Mpdf高清扫描版hadoop实战第2版是一本系统且极具实践指导意义的Hadoop工具书和参考书,作者陆嘉恒,已经扫描为pdf高清版电子图书,附带的福昕pdf阅读器可以完美打开浏览阅读。由于第1版广受好评,第2版基于hadoop及其相关技术最新版本撰写,从多角度做了全面的
查看cprimerplus第六版300M史蒂芬·普拉达pdf中文版 C++ Primer Plus 第6版 中文版是由美国加州肯特菲尔得的马林学院教授Stephen Prata编写出的C语言教材,是C语言的超集。本书根据2003年的ISO/ANSI C++标准编写,通过充分吸收大量短小精悍的程序详细而全面地阐述了C
查看modern php 中文版28.02Mpdf高清扫描版 modern php 中文版是一本php语言学习指导书籍,也是目前初级PHP的进阶宝典,由美国前端程序员乔希·洛克哈特编著。全书通过实践让读者了解php的新特性,让读者学到更多关于应用架构、规划、数据库、安全、测试、调试和部署方面的新知识,使读者明
查看Dreamweaver Photoshop Flash Fireworks JavaScript网页制作实例大讲堂60.02Mpdf扫描版 Dreamweaver Photoshop Flash Fireworks JavaScript网页制作实例大讲堂是一本网页制作实战操作手册,由网页设计师孙宇编著。本书内容丰富翔实,主要讲解了制作一个合格网页的全部流程,其中详细介绍了Dreamwe
查看
第1楼 北京市移动 网友