Spark核心技术与高级应用pdf-Spark核心技术与高级应用下载于俊向海pdf扫描版

详情
相关
评论

Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作，由科大讯飞和百分点科技的4位大数据专家撰写。全书不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识，而且还深度讲解了Spark SQL、Spark ML、Spark Streaming等大量内部模块和周边模块的原理与使用。除此之外，还从管理和性能优化的角度对Spark进行了深入探索，非常适合大数据相关从事者下载参考阅读。

内容介绍

Spark核心技术与高级应用分为四大部分，共计20章：
基础篇（第1～10章），详细说明什么是Spark、Spark的重要扩展、Spark的部署和运行、Spark程序开发、Spark编程模型，以及Spark作业执行解析。通过阅读本篇，读者可以构建更加清晰的Spark基础知识体系，进一步加深对大数据核心技术的理解。
实战篇（第11～14章），本书重点篇章，重点讲解Spark SQL与DataFrame、Spark Streaming、Spark MLlib与Spark ML、GraphX，以及基于以上内容在大数据分析、系统资源统计、LR模型、二级邻居关系图获取方面的实例。通过体察本篇的内容，读者可以掌握如何在实践中应用Spark，优化自身的应用场景，完善相应的解决方案。
高级篇（第15～18章），深入讲解Spark调度管理、存储管理、监控管理、性能调优。本篇的内容，为合理利用资源、有效进行资源监控、保障运行环境的稳定、平台性能调优、推进企业级的大数据平台管理提供了参考依据。
扩展篇（第19～20章），介绍Jobserver和Tachyon在Spark上的使用情况。通过本篇，延续基础、实战、高级等环节，并进一步扩展，更好地管理好Job、更有效地利用内存，为读者拓展出更深入、更全面的思路。

Spark核心技术与高级应用章节目录

前 言
基 础 篇
第1章 Spark简介 2
1.1 什么是Spark 2
1.1.1 概述 3
1.1.2 Spark大数据处理框架 3
1.1.3 Spark的特点 4
1.1.4 Spark应用场景 5
1.2 Spark的重要扩展 6
1.2.1 Spark SQL和DataFrame 6
1.2.2 Spark Streaming 7
1.2.3 Spark MLlib和ML 8
1.2.4 GraphX 8
1.2.5 SparkR 9
1.3 本章小结 10
第2章 Spark部署和运行 11
2.1 部署准备 11
2.1.1 下载Spark 11
2.1.2 编译Spark版本 12
2.1.3 集群部署概述 14
2.2 Spark部署 15
2.2.1 Local模式部署 16
2.2.2 Standalone模式部署 16
2.2.3 YARN模式部署 18
2.3 运行Spark应用程序 19
2.3.1 Local模式运行Spark应用程序 19
2.3.2 Standalone模式运行Spark应用程序 20
2.3.3 YARN模式运行Spark 22
2.3.4 应用程序提交和参数传递 23
2.4 本章小结 26
第3章 Spark程序开发 27
3.1 使用Spark Shell编写程序 27
3.1.1 启动Spark Shell 28
3.1.2 加载text文件 28
3.1.3 简单RDD操作 28
3.1.4 简单RDD操作应用 29
3.1.5 RDD缓存 30
3.2 构建Spark的开发环境 30
3.2.1 准备环境 30
3.2.2 构建Spark的Eclipse开发环境 31
3.2.3 构建Spark的IntelliJ IDEA开发环境 32
3.3 独立应用程序编程 40
3.3.1 创建SparkContext对象 40
3.3.2 编写简单应用程序 40
3.3.3 编译并提交应用程序 40
3.4 本章小结 43
第4章 编程模型 44
4.1 RDD介绍 44
4.1.1 RDD特征 45
4.1.2 RDD依赖 45
4.2 创建RDD 47
4.2.1 集合（数组）创建RDD 47
4.2.2 存储创建RDD 48
4.3 RDD操作 49
4.3.1 转换操作 50
4.3.2 执行操作 52
4.3.3 控制操作 54
4.4 共享变量 56
4.4.1 广播变量 57
4.4.2 累加器 57
4.5 本章小结 58
第5章 作业执行解析 59
5.1 基本概念 59
5.1.1 Spark组件 59
5.1.2 RDD视图 60
5.1.3 DAG图 61
5.2 作业执行流程 62
5.2.1 基于Standalone模式的Spark架构 62
5.2.2 基于YARN模式的Spark架构 64
5.2.3 作业事件流和调度分析 65
5.3 运行时环境 67
5.3.1 构建应用程序运行时环境 68
5.3.2 应用程序转换成DAG 68
5.3.3 调度执行DAG图 70
5.4 应用程序运行实例 71
5.5 本章小结 72
第6章 Spark SQL与DataFrame 73
6.1 概述 73
6.1.1 Spark SQL 发展 74
6.1.2 Spark SQL 架构 74
6.1.3 Spark SQL 特点 76
6.1.4 Spark SQL 性能 76
6.2 DataFrame 77
6.2.1 DataFrame和RDD的区别 78
6.2.2 创建DataFrame 78
6.2.3 DataFrame 操作 80
6.2.4 RDD转化为DataFrame 82
6.3 数据源 84
6.3.1 加载保存操作 84
6.3.2 Parquet 文件 85
6.3.3 JSON 数据集 88
6.3.4 Hive 表 89
6.3.5 通过JDBC 连接数据库 91
6.3.6 多数据源整合查询的小例子 92
6.4 分布式的SQL Engine 93
6.4.1 运行Thrift JDBC/ODBC 服务 93
6.4.2 运行 Spark SQL CLI 94
6.5 性能调优 94
6.5.1 缓存数据 94
6.5.2 调优参数 94
6.5.3 增加并行度 95
6.6 数据类型 95
6.7 本章小结 96
第7章 深入了解Spark Streaming 97
7.1 基础知识 97
7.1.1 Spark Streaming工作原理 98
7.1.2 DStream编程模型 99
7.2 DStream操作 100
7.2.1 Input DStream 100
7.2.2 DStream转换操作 102
7.2.3 DStream状态操作 104
7.2.4 DStream输出操作 106
7.2.5 缓存及持久化 107
7.2.6 检查点 108
7.3 性能调优 109
7.3.1 优化运行时间 109
7.3.2 设置合适的批次大小 111
7.3.3 优化内存使用 111
7.4 容错处理 112
7.4.1 文件输入源 112
7.4.2 基于Receiver的输入源 112
7.4.3 输出操作 113
7.5 一个例子 113
7.6 本章小结 115
第8章 Spark MLlib与机器学习 116
8.1 机器学习概述 116
8.1.1 机器学习分类 117
8.1.2 机器学习算法 117
8.2 Spark MLlib介绍 118
8.3 Spark MLlib库 119
8.3.1 MLlib数据类型 120
8.3.2 MLlib的算法库与实例 123
8.4 ML库 142
8.4.1 主要概念 143
8.4.2 算法库与实例 145
8.5 本章小结 147
第9章 GraphX图计算框架与应用 148
9.1 概述 148
9.2 Spark GraphX架构 149
9.3 GraphX编程 150
9.3.1 GraphX的图操作 152
9.3.2 常用图算法 161
9.4 应用场景 164
9.4.1 图谱体检平台 164
9.4.2 多图合并工具 165
9.4.3 能量传播模型 165
9.5 本章小结 166
第10章 SparkR（R on Spark） 167
10.1 概述 167
10.1.1 SparkR介绍 168
10.1.2 SparkR的工作原理 168
10.1.3 R语言介绍 169
10.1.4 R语言与其他语言的通信 170
10.2 安装SparkR 170
10.2.1 安装R语言与rJava 171
10.2.2 SparkR的安装 171
10.3 SparkR的运行与应用示例 172
10.3.1 运行SparkR 172
10.3.2 SparkR示例程序 173
10.3.3 R的DataFrame操作方法 175
10.3.4 SparkR的DataFrame 183
10.4 本章小结 186
实 战 篇
第11章 大数据分析系统 188
11.1 背景 188
11.2 数据格式 189
11.3 应用架构 189
11.4 业务实现 190
11.4.1 流量、性能的实时分析 190
11.4.2 流量、性能的统计分析 192
11.4.3 业务关联分析 193
11.4.4 离线报表分析 195
11.5 本章小结 199
第12章 系统资源分析平台 200
12.1 业务背景 200
12.1.1 业务介绍 201
12.1.2 实现目标 201
12.2 应用架构 201
12.2.1 总体架构 202
12.2.2 模块架构 202
12.3 代码实现 203
12.3.1 Kafka集群 203
12.3.2 数据采集 207
12.3.3 离线数据处理 207
12.3.4 数据表现 207
12.4 结果验证 213
12.5 本章小结 214
第13章 在Spark上训练LR模型 215
13.1 逻辑回归简介 215
13.2 数据格式 216
13.3 MLlib中LR模型源码介绍 217
13.3.1 逻辑回归分类器 217
13.3.2 优化方法 219
13.3.3 算法效果评估 221
13.4 实现案例 223
13.4.1 训练模型 223
13.4.2 计算AUC 223
13.5 本章小结 224
第14章 获取二级邻居关系图 225
14.1 理解PageRank 225
14.1.1 初步理解PageRank 225
14.1.2 深入理解PageRank 227
14.2 PageRank算法基于Spark的实现 228
14.3 基于PageRank的二级邻居获取 232
14.3.1 系统设计 232
14.3.2 系统实现 232
14.3.3 代码提交命令 235
14.4 本章小结 236
高 级 篇
第15章 调度管理 238
15.1 调度概述 238
15.1.1 应用程序间的调度 239
15.1.2 应用程序中的调度 241
15.2 调度器 242
15.2.1 调度池 243
15.2.2 Job调度流程 243

15.2.3 调度模块 245
15.2.4 Job的生与死 249
15.3 本章小结 253
第16章 存储管理 254
16.1 硬件环境 254
16.1.1 存储系统 254
16.1.2 本地磁盘 255
16.1.3 内存 255
16.1.4 网络和CPU 255
16.2 Storage模块 256
16.2.1 通信层 256
16.2.2 存储层 258
16.3 Shuff?le数据持久化 261
16.4 本章小结 263
第17章 监控管理 264
17.1 Web界面 264
17.2 Spark UI历史监控 266
17.2.1 使用spark-server的原因 266
17.2.2 配置spark-server 266
17.3 监控工具 269
17.3.1 Metrics工具 269
17.3.2 其他工具 271
17.4 本章小结 272
第18章 性能调优 273
18.1 文件的优化 273
18.1.1 输入采用大文件 273
18.1.2 lzo压缩处理 274
18.1.3 Cache压缩 275
18.2 序列化数据 277
18.3 缓存 278
18.4 共享变量 278
18.4.1 广播变量 279
18.4.2 累加器 279
18.5 流水线优化 280
18.6 本章小结 280
扩 展 篇
第19章 Spark-jobserver实践 282
19.1 Spark-jobserver是什么 282
19.2 编译、部署及体验 283
19.2.1 编译及部署 283
19.2.2 体验 286
19.3 Spark-jobserver程序实战 288
19.3.1 创建步骤 288
19.3.2 一些常见的问题 289
19.4 使用场景：用户属性分布计算 289
19.4.1 项目需求 290
19.4.2 计算架构 290
19.4.3 使用NamedRDD 291
19.5 本章小结 291
第20章 Spark Tachyon实战 292
20.1 Tachyon文件系统 292
20.1.1 文件系统概述 293
20.1.2 HDFS和Tachyon 294
20.1.3 Tachyon设计原理 294
20.1.4 Tachyon特性 295
20.2 Tachyon入门 295
20.2.1 Tachyon 部署 295
20.2.2 Tachyon API 297
20.2.3 在Spark上使用Tachyon 298
20.3  容错机制 299
20.4 本章小结 300

使用说明

1、下载并解压，得出pdf文件

2、如果打不开本文件，请务必下载pdf阅读器
3、安装后，在打开解压得出的pdf文件
4、双击进行阅读

应用信息

语言简体中文

类似软件

designspark mechanical官方版1.13G3264人在用 designspark mechanical官方版是一款专业的3D设计软件，能帮助设计人员把复杂的工作图分解成简单的草图进行制作，系统构建于AutoCAD平台之上，常用于二维绘图、详细绘制、设计文档和基本三维设计，现已成为国际上广为流行的绘图工具之
查看
apache spark 源码剖析30.99M192人在用 apache spark 源码剖析是一本Spark代码源码学习书籍，由许鹏编著，本书全面、系统地介绍了Spark源码，深入浅出，细致入微。先提供给读者一系列分析源码的实用技巧，并给出一个合理的阅读顺序，并且始终抓住资源分配、消息传递、容错处理等基本
查看
Spark最佳实践29.89M225人在用Spark最佳实践是一本Spark的战指南，由腾讯著名研发者陈欢和林世飞共同编著，全书基于真实数据，用案例分析全面解读大数据应用设计，采用了由浅入深的写作手法，前面主要讲解了Spark的部署、工作机制和内核，后又通过实战项目来介绍Spark SQL、Sp
查看
DesignSpark Electrical(电气CAD工具)1.13G358人在用 DesignSpark Electrical是一款专业的电气CAD工具，让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单，功能强大，不管是用户需要的纯设计工具、海量技术信息，还是完整的设计生态系统，软件都可以与用户正在使用的设计
查看
spark大数据实例开发教程125.52M260人在用一本实用参考书
查看
spark高级数据分析5.79M337人在用 spark高级数据分析是一本Spark实用手册，由著名大数据公司Cloudera的四名数据科学家编写，他们联袂展示了利用Spark进行大规模数据分析的若干模式，而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来，通过实例向读者
查看
DesignSparkPCB印刷电路板工具139.57M288人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板（PCB）设计工具，能轻松进行原理图捕获，设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看

一建万题库电脑版103.85Mv5.8.7.0一建考证通关大杀器！
查看
未来教育考试系统官方版76.81Mv4.0.0.92模拟考试系统软件
查看
yzk数独教学工具4.81Mv4.2官方版专业的数独学习、练习的工具软件
查看
完全学会git github git server的24堂课pdf高清版34.77M扫描版学习快速掌握分布式版本控制系统Git的应用方法。
查看
高中数学公式大全完整版2.2M 说起数学，相信在不少小伙伴心中都是非常头疼的一门科目，其是各种公式、定理更是记得头昏脑涨，可要想学好数学，数学公式、定理是肯定少不了的，如果不好好掌握的话，那么数学别想高分。所以小编本次要分享的是高中数学公式大全完整版，专为即将面临高考的同学所准备
查看
vipcode少儿编程154Mv1.7.0.5一站式编程学习平台
查看
快打一族电脑版4.65Mv7.07免费版 快打一族是一款功能强大的打字练习软件，现在共有电脑基础练习、中文打字练习、英文打字练习、五笔专区、数字打字练习、自定义练习、保存的文章练习等多种练习类型，每种练习都有多篇文章。除了跟打方式练打字外还有游戏方式，还带有一些小游戏让朋友们练打字闷了后放
查看
学海优学电脑版137.32Mv2.0.14.0 学海优学电脑版是由河北教育科技有限公司官方推出的一款在线学习软件，通过线上的方式来帮助学生们更好的在家进行教学辅导。当用户首次使用该软件时，会询问你的年级、教科书、学习习惯等多方面的问题，以便更好的了解到用户当前的学习状态，接着就会根据学校教学内容
查看
css3秘笈第3版110.17Mpdf扫描版 css3秘笈第3版是一本css3的学习书籍，由David Sawyer McFarland编著。本书将从基础开始，教你如何编写CSS3友好的HTML代码，教你如何使用格式化文本，并创建导航工具和图片提升来页面质量。如何创建能够吸引眼球的动画、表格和
查看
opengl超级宝典第五版111.39Mpdf高清扫描版 opengl超级宝典第五版是由Richard.Wright,Jr.Nicholas Haemel和Graham Sellers Benjamin Lipchak所编著的一本OpenGL及3D图形编程最好的入门指南书籍，涵盖了使用最新版本的OpenG
查看
html5敏捷实践2.85Mpdf扫描版一本html5编程实战手册
查看
android编程入门很简单113.76M android编程入门很简单是一本安卓编程入门书籍，由王勇编著。本书内容丰富翔实，对基础概念都做了全面而详细的解析，并对重要概念和比较难理解的知识提供了实际的例子进行讲解。其中用到了类比、比喻等讲解方法，并且给出了形象的图示，以加深读者的理解。并且
查看
零基础学HTML+CSS(第3版)82.93M张熠pdf扫描版 零基础学HTML+CSS（第3版）是一本html+css的全面学习教材，书中详细的介绍了html+css的知识点，先从简单的html语法下手，让读者对网页的信息展现有一个初步的了解，接着又引入了div+css的相关知识，让读者明白网页元素是如何布局
查看
asp.net4.0从入门到精通79.18M《asp.net4.0从入门到精通》这本图书有多个不同的版本，其中以张正礼，王坚宁编著，清华大学出版社出版的最受读者的欢迎，故小编在此特别提供asp.net4.0从入门到精通pdf免费下载，并且是pdf高清版本哟，用户即下即阅读。该书拥有12个使用asp
查看
actionscript大型网页游戏开发23.91Mactionscript大型网页游戏开发是一本pdf高清扫描版的电子图书，作者：jobe makar，李鑫、马舜翻译。全书阐述了多人网页游戏的许多基本概念，以及如何使用actionscript将其实施到项目中，读完本书，读者将掌握：如何连接用户来实现实时
查看