大小:38.49M
更新时间:23-09-09
系统:Pc
前 言 基 础 篇 第1章 Spark简介 2 1.1 什么是Spark 2 1.1.1 概述 3 1.1.2 Spark大数据处理框架 3 1.1.3 Spark的特点 4 1.1.4 Spark应用场景 5 1.2 Spark的重要扩展 6 1.2.1 Spark SQL和DataFrame 6 1.2.2 Spark Streaming 7 1.2.3 Spark MLlib和ML 8 1.2.4 GraphX 8 1.2.5 SparkR 9 1.3 本章小结 10 第2章 Spark部署和运行 11 2.1 部署准备 11 2.1.1 下载Spark 11 2.1.2 编译Spark版本 12 2.1.3 集群部署概述 14 2.2 Spark部署 15 2.2.1 Local模式部署 16 2.2.2 Standalone模式部署 16 2.2.3 YARN模式部署 18 2.3 运行Spark应用程序 19 2.3.1 Local模式运行Spark应用程序 19 2.3.2 Standalone模式运行Spark应用程序 20 2.3.3 YARN模式运行Spark 22 2.3.4 应用程序提交和参数传递 23 2.4 本章小结 26 第3章 Spark程序开发 27 3.1 使用Spark Shell编写程序 27 3.1.1 启动Spark Shell 28 3.1.2 加载text文件 28 3.1.3 简单RDD操作 28 3.1.4 简单RDD操作应用 29 3.1.5 RDD缓存 30 3.2 构建Spark的开发环境 30 3.2.1 准备环境 30 3.2.2 构建Spark的Eclipse开发环境 31 3.2.3 构建Spark的IntelliJ IDEA开发环境 32 3.3 独立应用程序编程 40 3.3.1 创建SparkContext对象 40 3.3.2 编写简单应用程序 40 3.3.3 编译并提交应用程序 40 3.4 本章小结 43 第4章 编程模型 44 4.1 RDD介绍 44 4.1.1 RDD特征 45 4.1.2 RDD依赖 45 4.2 创建RDD 47 4.2.1 集合(数组)创建RDD 47 4.2.2 存储创建RDD 48 4.3 RDD操作 49 4.3.1 转换操作 50 4.3.2 执行操作 52 4.3.3 控制操作 54 4.4 共享变量 56 4.4.1 广播变量 57 4.4.2 累加器 57 4.5 本章小结 58 第5章 作业执行解析 59 5.1 基本概念 59 5.1.1 Spark组件 59 5.1.2 RDD视图 60 5.1.3 DAG图 61 5.2 作业执行流程 62 5.2.1 基于Standalone模式的Spark架构 62 5.2.2 基于YARN模式的Spark架构 64 5.2.3 作业事件流和调度分析 65 5.3 运行时环境 67 5.3.1 构建应用程序运行时环境 68 5.3.2 应用程序转换成DAG 68 5.3.3 调度执行DAG图 70 5.4 应用程序运行实例 71 5.5 本章小结 72 第6章 Spark SQL与DataFrame 73 6.1 概述 73 6.1.1 Spark SQL 发展 74 6.1.2 Spark SQL 架构 74 6.1.3 Spark SQL 特点 76 6.1.4 Spark SQL 性能 76 6.2 DataFrame 77 6.2.1 DataFrame和RDD的区别 78 6.2.2 创建DataFrame 78 6.2.3 DataFrame 操作 80 6.2.4 RDD转化为DataFrame 82 6.3 数据源 84 6.3.1 加载保存操作 84 6.3.2 Parquet 文件 85 6.3.3 JSON 数据集 88 6.3.4 Hive 表 89 6.3.5 通过JDBC 连接数据库 91 6.3.6 多数据源整合查询的小例子 92 6.4 分布式的SQL Engine 93 6.4.1 运行Thrift JDBC/ODBC 服务 93 6.4.2 运行 Spark SQL CLI 94 6.5 性能调优 94 6.5.1 缓存数据 94 6.5.2 调优参数 94 6.5.3 增加并行度 95 6.6 数据类型 95 6.7 本章小结 96 第7章 深入了解Spark Streaming 97 7.1 基础知识 97 7.1.1 Spark Streaming工作原理 98 7.1.2 DStream编程模型 99 7.2 DStream操作 100 7.2.1 Input DStream 100 7.2.2 DStream转换操作 102 7.2.3 DStream状态操作 104 7.2.4 DStream输出操作 106 7.2.5 缓存及持久化 107 7.2.6 检查点 108 7.3 性能调优 109 7.3.1 优化运行时间 109 7.3.2 设置合适的批次大小 111 7.3.3 优化内存使用 111 7.4 容错处理 112 7.4.1 文件输入源 112 7.4.2 基于Receiver的输入源 112 7.4.3 输出操作 113 7.5 一个例子 113 7.6 本章小结 115 第8章 Spark MLlib与机器学习 116 8.1 机器学习概述 116 8.1.1 机器学习分类 117 8.1.2 机器学习算法 117 8.2 Spark MLlib介绍 118 8.3 Spark MLlib库 119 8.3.1 MLlib数据类型 120 8.3.2 MLlib的算法库与实例 123 8.4 ML库 142 8.4.1 主要概念 143 8.4.2 算法库与实例 145 8.5 本章小结 147 第9章 GraphX图计算框架与应用 148 9.1 概述 148 9.2 Spark GraphX架构 149 9.3 GraphX编程 150 9.3.1 GraphX的图操作 152 9.3.2 常用图算法 161 9.4 应用场景 164 9.4.1 图谱体检平台 164 9.4.2 多图合并工具 165 9.4.3 能量传播模型 165 9.5 本章小结 166 第10章 SparkR(R on Spark) 167 10.1 概述 167 10.1.1 SparkR介绍 168 10.1.2 SparkR的工作原理 168 10.1.3 R语言介绍 169 10.1.4 R语言与其他语言的通信 170 10.2 安装SparkR 170 10.2.1 安装R语言与rJava 171 10.2.2 SparkR的安装 171 10.3 SparkR的运行与应用示例 172 10.3.1 运行SparkR 172 10.3.2 SparkR示例程序 173 10.3.3 R的DataFrame操作方法 175 10.3.4 SparkR的DataFrame 183 10.4 本章小结 186 实 战 篇 第11章 大数据分析系统 188 11.1 背景 188 11.2 数据格式 189 11.3 应用架构 189 11.4 业务实现 190 11.4.1 流量、性能的实时分析 190 11.4.2 流量、性能的统计分析 192 11.4.3 业务关联分析 193 11.4.4 离线报表分析 195 11.5 本章小结 199 第12章 系统资源分析平台 200 12.1 业务背景 200 12.1.1 业务介绍 201 12.1.2 实现目标 201 12.2 应用架构 201 12.2.1 总体架构 202 12.2.2 模块架构 202 12.3 代码实现 203 12.3.1 Kafka集群 203 12.3.2 数据采集 207 12.3.3 离线数据处理 207 12.3.4 数据表现 207 12.4 结果验证 213 12.5 本章小结 214 第13章 在Spark上训练LR模型 215 13.1 逻辑回归简介 215 13.2 数据格式 216 13.3 MLlib中LR模型源码介绍 217 13.3.1 逻辑回归分类器 217 13.3.2 优化方法 219 13.3.3 算法效果评估 221 13.4 实现案例 223 13.4.1 训练模型 223 13.4.2 计算AUC 223 13.5 本章小结 224 第14章 获取二级邻居关系图 225 14.1 理解PageRank 225 14.1.1 初步理解PageRank 225 14.1.2 深入理解PageRank 227 14.2 PageRank算法基于Spark的实现 228 14.3 基于PageRank的二级邻居获取 232 14.3.1 系统设计 232 14.3.2 系统实现 232 14.3.3 代码提交命令 235 14.4 本章小结 236 高 级 篇 第15章 调度管理 238 15.1 调度概述 238 15.1.1 应用程序间的调度 239 15.1.2 应用程序中的调度 241 15.2 调度器 242 15.2.1 调度池 243 15.2.2 Job调度流程 243 15.2.3 调度模块 245 15.2.4 Job的生与死 249 15.3 本章小结 253 第16章 存储管理 254 16.1 硬件环境 254 16.1.1 存储系统 254 16.1.2 本地磁盘 255 16.1.3 内存 255 16.1.4 网络和CPU 255 16.2 Storage模块 256 16.2.1 通信层 256 16.2.2 存储层 258 16.3 Shuff?le数据持久化 261 16.4 本章小结 263 第17章 监控管理 264 17.1 Web界面 264 17.2 Spark UI历史监控 266 17.2.1 使用spark-server的原因 266 17.2.2 配置spark-server 266 17.3 监控工具 269 17.3.1 Metrics工具 269 17.3.2 其他工具 271 17.4 本章小结 272 第18章 性能调优 273 18.1 文件的优化 273 18.1.1 输入采用大文件 273 18.1.2 lzo压缩处理 274 18.1.3 Cache压缩 275 18.2 序列化数据 277 18.3 缓存 278 18.4 共享变量 278 18.4.1 广播变量 279 18.4.2 累加器 279 18.5 流水线优化 280 18.6 本章小结 280 扩 展 篇 第19章 Spark-jobserver实践 282 19.1 Spark-jobserver是什么 282 19.2 编译、部署及体验 283 19.2.1 编译及部署 283 19.2.2 体验 286 19.3 Spark-jobserver程序实战 288 19.3.1 创建步骤 288 19.3.2 一些常见的问题 289 19.4 使用场景:用户属性分布计算 289 19.4.1 项目需求 290 19.4.2 计算架构 290 19.4.3 使用NamedRDD 291 19.5 本章小结 291 第20章 Spark Tachyon实战 292 20.1 Tachyon文件系统 292 20.1.1 文件系统概述 293 20.1.2 HDFS和Tachyon 294 20.1.3 Tachyon设计原理 294 20.1.4 Tachyon特性 295 20.2 Tachyon入门 295 20.2.1 Tachyon 部署 295 20.2.2 Tachyon API 297 20.2.3 在Spark上使用Tachyon 298 20.3 容错机制 299 20.4 本章小结 300
精品推荐
同类热门
类似软件
apache spark 源码剖析30.99M174人在用apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,
查看designspark mechanical官方版1.13G2835人在用 designspark mechanical官方版是一款专业的3D设计软件,能帮助设计人员把复杂的工作图分解成简单的草图进行制作,系统构建于AutoCAD平台之上,常用于二维绘图、详细绘制、设计文档和基本三维设计,现已成为国际上广为流行的绘图工具之
查看DesignSpark Electrical(电气CAD工具)1.13G234人在用 DesignSpark Electrical是一款专业的电气CAD工具,让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单,功能强大,不管是用户需要的纯设计工具、海量技术信息,还是完整的设计生态系统,软件都可以与用户正在使用的设计
查看spark高级数据分析5.79M306人在用 spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者
查看DesignSparkPCB印刷电路板工具139.57M248人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板(PCB)设计工具,能轻松进行原理图捕获,设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看Spark技术内幕:深入解析Spark内核架构设计与实现原理21.61M281人在用 Spark技术内幕:深入解析Spark内核架构设计与实现原理是一本Spark解析实用教学书籍,由张安站编著,全书详细剖析了Spark内核各个模块,以源码为基础,全面分析了Spark内核的各个模块的设计思想和实现原理,深入理解其内部运作机制乃至实现细
查看热门标签
网友评论0人参与,0条评论
最新排行
android系统服务开发54.2Mpdf完整扫描版android系统服务开发是一本不错的android系统开发书籍,通过本书可以了解系统进程间通信、通信(RIL)框架、电源管理等内容的相关细节,对致力于这方面开发的程序员来说大有裨益。本书由[韩]金大佑,朴宰永,文炳元编著,邸春红翻译,人民邮电出版社出版
查看Objective-C2.0Mac和ios开发实践指南38.25M克莱尔pdf扫描版 Objective-C2.0Mac和ios开发实践指南是一本Objective-C 2.0语言开发实践书籍,由美国MacOSx和iPhone开发专家Robert Clair编著。本书内容精练、可读性强、易于学习,是学习Objective-C2.0的
查看photoshop从入门到精通数码照片处理篇34.57M photoshop应该是现代办公人员必须学会的软件,不管你工作用得到还是用不到,都应该学会,工作中用得到固然好,用不到的话你也可以给自己的相片美美地PS下啊,难道你没有看过网络上那些PS大神的作品,精彩绝美!今天小编给网友带来了photoshop从
查看WOW!Illustrator CS6完全自学宝典91.9Mpdf全彩版 WOW!Illustrator CS6完全自学宝典是一本Illustrator CS6矢量图软件的使用指导手册,由数码平方团队编著。本书内容丰富,内含187个实例、27个拓展知识、50个实用技巧,理论中结合了实践,只要你跟着书上的流程,边学、边练、
查看Scala程序设计第二版15.83Mpdf高清完整版想要学习Scala程序设计看哪方面的书籍好呢?小编推荐您看看这本Scala程序设计第二版pdf格式的电子书,这本书里主要讲解了Scala的函数式风格、自适应类型、闭包、XML处理、模式匹配和并发编程等内容。本书既适合Scala初学者入门,也适合经验丰富的
查看sql server 2012从零开始学186.06M王英英pdf扫描版 sql server 2012从零开始学是一本SQL Server 2012数据库入门书籍,由王英英,张少军和刘增杰三人共同编著,本书内容几乎涉及了SQL Server 2012数据库应用与开发的所有重要知识,通过全书的学习,您可以完整地掌握SQL
查看仙剑奇侠传6操作指南pdf18.39M 仙剑奇侠传6位于“大宇资讯旗下软星科技有限公司”制作的最新一款单机角色扮演游戏,在2015年7月8日正式发布,相信不少游戏玩家都纷纷加入到游戏当中,而今日小编为游戏玩家带来的是仙剑奇侠传6操作指南pdf,在该说明书中包含了各种游戏介绍和操作指南,适
查看数据库系统概念(原书第6版)31.7M扫描版 数据库系统概念第六版是经典的数据库系统教科书《Database System Concepts》的新修订版,由Abraham Silberschatz、Henry F.Korth、S.Sudarshan三人共同编写。全书全面介绍了数据库系统的各种知
查看java ee 7权威指南 卷2(原书第5版)55.08M埃里克·珍兆科pdf扫描版 java ee 7权威指南 卷2(原书第5版)是一本java EE权威开发指南,由美国程序员埃里克·珍兆科、里卡多·塞维拉 - 纳瓦罗、伊恩·埃文斯、金姆·哈泽和威廉·马基特五人共同编著。本书是一个面向任务的实用指南,通过一系列实用示例介绍如何开发
查看r语言与网站分析 完整版43.3M李明pdf扫描版 r语言与网站分析是一本R语言与网站分析技术实战手册,由李明编著。本书侧重于R语言对网站分析和挖掘的代码实现,并不侧重于对计算结果的分析讨论以及网站统计的思维方法。同时,本书以通俗的非学术语言结合实际的代码案例来介绍网站分析的基本思路和统计理论的数学
查看大数据存储mongodb实战指南33.27M扫描版大数据存储mongodb实战指南是一本MongoDB数据库实战手册,由郭远威编著,本书内容丰富翔实,剖析了mongodb在生产环境中使用需要知道的所有内容,包括大数据与云计算、询语言系统、索引与查询优化、增改删操作、Journaling日志功能、聚集分析
查看