大小:38.49M
更新时间:23-09-09
系统:Pc
前 言 基 础 篇 第1章 Spark简介 2 1.1 什么是Spark 2 1.1.1 概述 3 1.1.2 Spark大数据处理框架 3 1.1.3 Spark的特点 4 1.1.4 Spark应用场景 5 1.2 Spark的重要扩展 6 1.2.1 Spark SQL和DataFrame 6 1.2.2 Spark Streaming 7 1.2.3 Spark MLlib和ML 8 1.2.4 GraphX 8 1.2.5 SparkR 9 1.3 本章小结 10 第2章 Spark部署和运行 11 2.1 部署准备 11 2.1.1 下载Spark 11 2.1.2 编译Spark版本 12 2.1.3 集群部署概述 14 2.2 Spark部署 15 2.2.1 Local模式部署 16 2.2.2 Standalone模式部署 16 2.2.3 YARN模式部署 18 2.3 运行Spark应用程序 19 2.3.1 Local模式运行Spark应用程序 19 2.3.2 Standalone模式运行Spark应用程序 20 2.3.3 YARN模式运行Spark 22 2.3.4 应用程序提交和参数传递 23 2.4 本章小结 26 第3章 Spark程序开发 27 3.1 使用Spark Shell编写程序 27 3.1.1 启动Spark Shell 28 3.1.2 加载text文件 28 3.1.3 简单RDD操作 28 3.1.4 简单RDD操作应用 29 3.1.5 RDD缓存 30 3.2 构建Spark的开发环境 30 3.2.1 准备环境 30 3.2.2 构建Spark的Eclipse开发环境 31 3.2.3 构建Spark的IntelliJ IDEA开发环境 32 3.3 独立应用程序编程 40 3.3.1 创建SparkContext对象 40 3.3.2 编写简单应用程序 40 3.3.3 编译并提交应用程序 40 3.4 本章小结 43 第4章 编程模型 44 4.1 RDD介绍 44 4.1.1 RDD特征 45 4.1.2 RDD依赖 45 4.2 创建RDD 47 4.2.1 集合(数组)创建RDD 47 4.2.2 存储创建RDD 48 4.3 RDD操作 49 4.3.1 转换操作 50 4.3.2 执行操作 52 4.3.3 控制操作 54 4.4 共享变量 56 4.4.1 广播变量 57 4.4.2 累加器 57 4.5 本章小结 58 第5章 作业执行解析 59 5.1 基本概念 59 5.1.1 Spark组件 59 5.1.2 RDD视图 60 5.1.3 DAG图 61 5.2 作业执行流程 62 5.2.1 基于Standalone模式的Spark架构 62 5.2.2 基于YARN模式的Spark架构 64 5.2.3 作业事件流和调度分析 65 5.3 运行时环境 67 5.3.1 构建应用程序运行时环境 68 5.3.2 应用程序转换成DAG 68 5.3.3 调度执行DAG图 70 5.4 应用程序运行实例 71 5.5 本章小结 72 第6章 Spark SQL与DataFrame 73 6.1 概述 73 6.1.1 Spark SQL 发展 74 6.1.2 Spark SQL 架构 74 6.1.3 Spark SQL 特点 76 6.1.4 Spark SQL 性能 76 6.2 DataFrame 77 6.2.1 DataFrame和RDD的区别 78 6.2.2 创建DataFrame 78 6.2.3 DataFrame 操作 80 6.2.4 RDD转化为DataFrame 82 6.3 数据源 84 6.3.1 加载保存操作 84 6.3.2 Parquet 文件 85 6.3.3 JSON 数据集 88 6.3.4 Hive 表 89 6.3.5 通过JDBC 连接数据库 91 6.3.6 多数据源整合查询的小例子 92 6.4 分布式的SQL Engine 93 6.4.1 运行Thrift JDBC/ODBC 服务 93 6.4.2 运行 Spark SQL CLI 94 6.5 性能调优 94 6.5.1 缓存数据 94 6.5.2 调优参数 94 6.5.3 增加并行度 95 6.6 数据类型 95 6.7 本章小结 96 第7章 深入了解Spark Streaming 97 7.1 基础知识 97 7.1.1 Spark Streaming工作原理 98 7.1.2 DStream编程模型 99 7.2 DStream操作 100 7.2.1 Input DStream 100 7.2.2 DStream转换操作 102 7.2.3 DStream状态操作 104 7.2.4 DStream输出操作 106 7.2.5 缓存及持久化 107 7.2.6 检查点 108 7.3 性能调优 109 7.3.1 优化运行时间 109 7.3.2 设置合适的批次大小 111 7.3.3 优化内存使用 111 7.4 容错处理 112 7.4.1 文件输入源 112 7.4.2 基于Receiver的输入源 112 7.4.3 输出操作 113 7.5 一个例子 113 7.6 本章小结 115 第8章 Spark MLlib与机器学习 116 8.1 机器学习概述 116 8.1.1 机器学习分类 117 8.1.2 机器学习算法 117 8.2 Spark MLlib介绍 118 8.3 Spark MLlib库 119 8.3.1 MLlib数据类型 120 8.3.2 MLlib的算法库与实例 123 8.4 ML库 142 8.4.1 主要概念 143 8.4.2 算法库与实例 145 8.5 本章小结 147 第9章 GraphX图计算框架与应用 148 9.1 概述 148 9.2 Spark GraphX架构 149 9.3 GraphX编程 150 9.3.1 GraphX的图操作 152 9.3.2 常用图算法 161 9.4 应用场景 164 9.4.1 图谱体检平台 164 9.4.2 多图合并工具 165 9.4.3 能量传播模型 165 9.5 本章小结 166 第10章 SparkR(R on Spark) 167 10.1 概述 167 10.1.1 SparkR介绍 168 10.1.2 SparkR的工作原理 168 10.1.3 R语言介绍 169 10.1.4 R语言与其他语言的通信 170 10.2 安装SparkR 170 10.2.1 安装R语言与rJava 171 10.2.2 SparkR的安装 171 10.3 SparkR的运行与应用示例 172 10.3.1 运行SparkR 172 10.3.2 SparkR示例程序 173 10.3.3 R的DataFrame操作方法 175 10.3.4 SparkR的DataFrame 183 10.4 本章小结 186 实 战 篇 第11章 大数据分析系统 188 11.1 背景 188 11.2 数据格式 189 11.3 应用架构 189 11.4 业务实现 190 11.4.1 流量、性能的实时分析 190 11.4.2 流量、性能的统计分析 192 11.4.3 业务关联分析 193 11.4.4 离线报表分析 195 11.5 本章小结 199 第12章 系统资源分析平台 200 12.1 业务背景 200 12.1.1 业务介绍 201 12.1.2 实现目标 201 12.2 应用架构 201 12.2.1 总体架构 202 12.2.2 模块架构 202 12.3 代码实现 203 12.3.1 Kafka集群 203 12.3.2 数据采集 207 12.3.3 离线数据处理 207 12.3.4 数据表现 207 12.4 结果验证 213 12.5 本章小结 214 第13章 在Spark上训练LR模型 215 13.1 逻辑回归简介 215 13.2 数据格式 216 13.3 MLlib中LR模型源码介绍 217 13.3.1 逻辑回归分类器 217 13.3.2 优化方法 219 13.3.3 算法效果评估 221 13.4 实现案例 223 13.4.1 训练模型 223 13.4.2 计算AUC 223 13.5 本章小结 224 第14章 获取二级邻居关系图 225 14.1 理解PageRank 225 14.1.1 初步理解PageRank 225 14.1.2 深入理解PageRank 227 14.2 PageRank算法基于Spark的实现 228 14.3 基于PageRank的二级邻居获取 232 14.3.1 系统设计 232 14.3.2 系统实现 232 14.3.3 代码提交命令 235 14.4 本章小结 236 高 级 篇 第15章 调度管理 238 15.1 调度概述 238 15.1.1 应用程序间的调度 239 15.1.2 应用程序中的调度 241 15.2 调度器 242 15.2.1 调度池 243 15.2.2 Job调度流程 243 15.2.3 调度模块 245 15.2.4 Job的生与死 249 15.3 本章小结 253 第16章 存储管理 254 16.1 硬件环境 254 16.1.1 存储系统 254 16.1.2 本地磁盘 255 16.1.3 内存 255 16.1.4 网络和CPU 255 16.2 Storage模块 256 16.2.1 通信层 256 16.2.2 存储层 258 16.3 Shuff?le数据持久化 261 16.4 本章小结 263 第17章 监控管理 264 17.1 Web界面 264 17.2 Spark UI历史监控 266 17.2.1 使用spark-server的原因 266 17.2.2 配置spark-server 266 17.3 监控工具 269 17.3.1 Metrics工具 269 17.3.2 其他工具 271 17.4 本章小结 272 第18章 性能调优 273 18.1 文件的优化 273 18.1.1 输入采用大文件 273 18.1.2 lzo压缩处理 274 18.1.3 Cache压缩 275 18.2 序列化数据 277 18.3 缓存 278 18.4 共享变量 278 18.4.1 广播变量 279 18.4.2 累加器 279 18.5 流水线优化 280 18.6 本章小结 280 扩 展 篇 第19章 Spark-jobserver实践 282 19.1 Spark-jobserver是什么 282 19.2 编译、部署及体验 283 19.2.1 编译及部署 283 19.2.2 体验 286 19.3 Spark-jobserver程序实战 288 19.3.1 创建步骤 288 19.3.2 一些常见的问题 289 19.4 使用场景:用户属性分布计算 289 19.4.1 项目需求 290 19.4.2 计算架构 290 19.4.3 使用NamedRDD 291 19.5 本章小结 291 第20章 Spark Tachyon实战 292 20.1 Tachyon文件系统 292 20.1.1 文件系统概述 293 20.1.2 HDFS和Tachyon 294 20.1.3 Tachyon设计原理 294 20.1.4 Tachyon特性 295 20.2 Tachyon入门 295 20.2.1 Tachyon 部署 295 20.2.2 Tachyon API 297 20.2.3 在Spark上使用Tachyon 298 20.3 容错机制 299 20.4 本章小结 300


应用信息
同类热门
类似软件
DesignSpark Electrical(电气CAD工具)1.13G313人在用 DesignSpark Electrical是一款专业的电气CAD工具,让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单,功能强大,不管是用户需要的纯设计工具、海量技术信息,还是完整的设计生态系统,软件都可以与用户正在使用的设计
查看
designspark mechanical官方版1.13G3225人在用 designspark mechanical官方版是一款专业的3D设计软件,能帮助设计人员把复杂的工作图分解成简单的草图进行制作,系统构建于AutoCAD平台之上,常用于二维绘图、详细绘制、设计文档和基本三维设计,现已成为国际上广为流行的绘图工具之
查看
spark高级数据分析5.79M335人在用 spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者
查看
apache spark 源码剖析30.99M192人在用 apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本
查看
DesignSparkPCB印刷电路板工具139.57M281人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板(PCB)设计工具,能轻松进行原理图捕获,设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看热门标签
网友评论0人参与,0条评论
最新排行
星空教务办公系统电脑版6.26Mv8.16.1508 星空教务办公系统电脑版是由星空软件专为中小学教务办公设计的一款教务办公系统工具,该软件能统计分析单班学生成绩,能打印学生登分名册,能综合统计分析多班学生成绩,能进行多班混合组考,能按学生性别和名科成绩精准分班,基本在教务日常中的需求都能够得到满足,
查看
把你的英语用起来pdf4.81M 把你的英语用起来是由北京大学应用心理学硕士伍君仪老师及上海某家猎头公司刘晓光先生共同编著的一本英语学习著作。该著作充分融合了美国南加州大学的教授Dr Krashen的二语习得理论,特别适合想提高自己的英语能力而不得的用户观看学习,能够为英语爱好者提
查看
云备课(教师备课软件)231.04Mv1.2官方版 云备课官方电脑版是一款专门为教师提供的备课软件,该软件操作简单、功能强大,可以根据关键词来按版本、学科、学段来搜索查询教学资源库的功能,并且还内置图表工具可根据用户输的数据自动生成柱状、饼状、折线、区域、气泡统计图。除此之外还可以插入图片、视频、音
查看
c语言开发手册典藏版136.98M薛园园pdf扫描版 c语言开发手册典藏版是一本百科全书式的c语言编程宝典,由薛园园编著。全书包括了c语言从基础知识到高级开发技术的全景式解读,不仅详细介绍了C语言程序设计的基础知识,还对常用的高级编程技术进行了详细的讲解。同时在讲解每个知识点的同时,均给出了其在程序设
查看
深入理解linux驱动程序设计22.19M吴国伟pdf扫描版深入理解linux驱动程序设计是一本linux系统驱动设计指导书籍,由吴国伟,姚琳,毕成龙编著。全书以基于Linux内核3.8.13源代码而编写,全面深入地论述了Linux设备驱动开发的全方位技术,揭秘Linux内核、驱动开发、驱动开发实例,主要内容包括
查看
MySQL新技术在淘宝的使用2.23MPDF版 MySQL新技术在淘宝的使用是一本PDF格式的电子书籍,它详细的介绍了mysql数据库的用途,总体架构,mysql服务器硬件架构,以及MySQL在淘宝中如何应用等方面的知识,对于网站设计人员具有很强的参考价格,希望对网友们有帮助。
查看