大小:38.49M
更新时间:23-09-09
系统:Pc
前 言 基 础 篇 第1章 Spark简介 2 1.1 什么是Spark 2 1.1.1 概述 3 1.1.2 Spark大数据处理框架 3 1.1.3 Spark的特点 4 1.1.4 Spark应用场景 5 1.2 Spark的重要扩展 6 1.2.1 Spark SQL和DataFrame 6 1.2.2 Spark Streaming 7 1.2.3 Spark MLlib和ML 8 1.2.4 GraphX 8 1.2.5 SparkR 9 1.3 本章小结 10 第2章 Spark部署和运行 11 2.1 部署准备 11 2.1.1 下载Spark 11 2.1.2 编译Spark版本 12 2.1.3 集群部署概述 14 2.2 Spark部署 15 2.2.1 Local模式部署 16 2.2.2 Standalone模式部署 16 2.2.3 YARN模式部署 18 2.3 运行Spark应用程序 19 2.3.1 Local模式运行Spark应用程序 19 2.3.2 Standalone模式运行Spark应用程序 20 2.3.3 YARN模式运行Spark 22 2.3.4 应用程序提交和参数传递 23 2.4 本章小结 26 第3章 Spark程序开发 27 3.1 使用Spark Shell编写程序 27 3.1.1 启动Spark Shell 28 3.1.2 加载text文件 28 3.1.3 简单RDD操作 28 3.1.4 简单RDD操作应用 29 3.1.5 RDD缓存 30 3.2 构建Spark的开发环境 30 3.2.1 准备环境 30 3.2.2 构建Spark的Eclipse开发环境 31 3.2.3 构建Spark的IntelliJ IDEA开发环境 32 3.3 独立应用程序编程 40 3.3.1 创建SparkContext对象 40 3.3.2 编写简单应用程序 40 3.3.3 编译并提交应用程序 40 3.4 本章小结 43 第4章 编程模型 44 4.1 RDD介绍 44 4.1.1 RDD特征 45 4.1.2 RDD依赖 45 4.2 创建RDD 47 4.2.1 集合(数组)创建RDD 47 4.2.2 存储创建RDD 48 4.3 RDD操作 49 4.3.1 转换操作 50 4.3.2 执行操作 52 4.3.3 控制操作 54 4.4 共享变量 56 4.4.1 广播变量 57 4.4.2 累加器 57 4.5 本章小结 58 第5章 作业执行解析 59 5.1 基本概念 59 5.1.1 Spark组件 59 5.1.2 RDD视图 60 5.1.3 DAG图 61 5.2 作业执行流程 62 5.2.1 基于Standalone模式的Spark架构 62 5.2.2 基于YARN模式的Spark架构 64 5.2.3 作业事件流和调度分析 65 5.3 运行时环境 67 5.3.1 构建应用程序运行时环境 68 5.3.2 应用程序转换成DAG 68 5.3.3 调度执行DAG图 70 5.4 应用程序运行实例 71 5.5 本章小结 72 第6章 Spark SQL与DataFrame 73 6.1 概述 73 6.1.1 Spark SQL 发展 74 6.1.2 Spark SQL 架构 74 6.1.3 Spark SQL 特点 76 6.1.4 Spark SQL 性能 76 6.2 DataFrame 77 6.2.1 DataFrame和RDD的区别 78 6.2.2 创建DataFrame 78 6.2.3 DataFrame 操作 80 6.2.4 RDD转化为DataFrame 82 6.3 数据源 84 6.3.1 加载保存操作 84 6.3.2 Parquet 文件 85 6.3.3 JSON 数据集 88 6.3.4 Hive 表 89 6.3.5 通过JDBC 连接数据库 91 6.3.6 多数据源整合查询的小例子 92 6.4 分布式的SQL Engine 93 6.4.1 运行Thrift JDBC/ODBC 服务 93 6.4.2 运行 Spark SQL CLI 94 6.5 性能调优 94 6.5.1 缓存数据 94 6.5.2 调优参数 94 6.5.3 增加并行度 95 6.6 数据类型 95 6.7 本章小结 96 第7章 深入了解Spark Streaming 97 7.1 基础知识 97 7.1.1 Spark Streaming工作原理 98 7.1.2 DStream编程模型 99 7.2 DStream操作 100 7.2.1 Input DStream 100 7.2.2 DStream转换操作 102 7.2.3 DStream状态操作 104 7.2.4 DStream输出操作 106 7.2.5 缓存及持久化 107 7.2.6 检查点 108 7.3 性能调优 109 7.3.1 优化运行时间 109 7.3.2 设置合适的批次大小 111 7.3.3 优化内存使用 111 7.4 容错处理 112 7.4.1 文件输入源 112 7.4.2 基于Receiver的输入源 112 7.4.3 输出操作 113 7.5 一个例子 113 7.6 本章小结 115 第8章 Spark MLlib与机器学习 116 8.1 机器学习概述 116 8.1.1 机器学习分类 117 8.1.2 机器学习算法 117 8.2 Spark MLlib介绍 118 8.3 Spark MLlib库 119 8.3.1 MLlib数据类型 120 8.3.2 MLlib的算法库与实例 123 8.4 ML库 142 8.4.1 主要概念 143 8.4.2 算法库与实例 145 8.5 本章小结 147 第9章 GraphX图计算框架与应用 148 9.1 概述 148 9.2 Spark GraphX架构 149 9.3 GraphX编程 150 9.3.1 GraphX的图操作 152 9.3.2 常用图算法 161 9.4 应用场景 164 9.4.1 图谱体检平台 164 9.4.2 多图合并工具 165 9.4.3 能量传播模型 165 9.5 本章小结 166 第10章 SparkR(R on Spark) 167 10.1 概述 167 10.1.1 SparkR介绍 168 10.1.2 SparkR的工作原理 168 10.1.3 R语言介绍 169 10.1.4 R语言与其他语言的通信 170 10.2 安装SparkR 170 10.2.1 安装R语言与rJava 171 10.2.2 SparkR的安装 171 10.3 SparkR的运行与应用示例 172 10.3.1 运行SparkR 172 10.3.2 SparkR示例程序 173 10.3.3 R的DataFrame操作方法 175 10.3.4 SparkR的DataFrame 183 10.4 本章小结 186 实 战 篇 第11章 大数据分析系统 188 11.1 背景 188 11.2 数据格式 189 11.3 应用架构 189 11.4 业务实现 190 11.4.1 流量、性能的实时分析 190 11.4.2 流量、性能的统计分析 192 11.4.3 业务关联分析 193 11.4.4 离线报表分析 195 11.5 本章小结 199 第12章 系统资源分析平台 200 12.1 业务背景 200 12.1.1 业务介绍 201 12.1.2 实现目标 201 12.2 应用架构 201 12.2.1 总体架构 202 12.2.2 模块架构 202 12.3 代码实现 203 12.3.1 Kafka集群 203 12.3.2 数据采集 207 12.3.3 离线数据处理 207 12.3.4 数据表现 207 12.4 结果验证 213 12.5 本章小结 214 第13章 在Spark上训练LR模型 215 13.1 逻辑回归简介 215 13.2 数据格式 216 13.3 MLlib中LR模型源码介绍 217 13.3.1 逻辑回归分类器 217 13.3.2 优化方法 219 13.3.3 算法效果评估 221 13.4 实现案例 223 13.4.1 训练模型 223 13.4.2 计算AUC 223 13.5 本章小结 224 第14章 获取二级邻居关系图 225 14.1 理解PageRank 225 14.1.1 初步理解PageRank 225 14.1.2 深入理解PageRank 227 14.2 PageRank算法基于Spark的实现 228 14.3 基于PageRank的二级邻居获取 232 14.3.1 系统设计 232 14.3.2 系统实现 232 14.3.3 代码提交命令 235 14.4 本章小结 236 高 级 篇 第15章 调度管理 238 15.1 调度概述 238 15.1.1 应用程序间的调度 239 15.1.2 应用程序中的调度 241 15.2 调度器 242 15.2.1 调度池 243 15.2.2 Job调度流程 243 15.2.3 调度模块 245 15.2.4 Job的生与死 249 15.3 本章小结 253 第16章 存储管理 254 16.1 硬件环境 254 16.1.1 存储系统 254 16.1.2 本地磁盘 255 16.1.3 内存 255 16.1.4 网络和CPU 255 16.2 Storage模块 256 16.2.1 通信层 256 16.2.2 存储层 258 16.3 Shuff?le数据持久化 261 16.4 本章小结 263 第17章 监控管理 264 17.1 Web界面 264 17.2 Spark UI历史监控 266 17.2.1 使用spark-server的原因 266 17.2.2 配置spark-server 266 17.3 监控工具 269 17.3.1 Metrics工具 269 17.3.2 其他工具 271 17.4 本章小结 272 第18章 性能调优 273 18.1 文件的优化 273 18.1.1 输入采用大文件 273 18.1.2 lzo压缩处理 274 18.1.3 Cache压缩 275 18.2 序列化数据 277 18.3 缓存 278 18.4 共享变量 278 18.4.1 广播变量 279 18.4.2 累加器 279 18.5 流水线优化 280 18.6 本章小结 280 扩 展 篇 第19章 Spark-jobserver实践 282 19.1 Spark-jobserver是什么 282 19.2 编译、部署及体验 283 19.2.1 编译及部署 283 19.2.2 体验 286 19.3 Spark-jobserver程序实战 288 19.3.1 创建步骤 288 19.3.2 一些常见的问题 289 19.4 使用场景:用户属性分布计算 289 19.4.1 项目需求 290 19.4.2 计算架构 290 19.4.3 使用NamedRDD 291 19.5 本章小结 291 第20章 Spark Tachyon实战 292 20.1 Tachyon文件系统 292 20.1.1 文件系统概述 293 20.1.2 HDFS和Tachyon 294 20.1.3 Tachyon设计原理 294 20.1.4 Tachyon特性 295 20.2 Tachyon入门 295 20.2.1 Tachyon 部署 295 20.2.2 Tachyon API 297 20.2.3 在Spark上使用Tachyon 298 20.3 容错机制 299 20.4 本章小结 300
同类热门
类似软件
apache spark 源码剖析30.99M172人在用apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,
查看spark高级数据分析5.79M295人在用 spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者
查看DesignSparkPCB印刷电路板工具139.57M241人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板(PCB)设计工具,能轻松进行原理图捕获,设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看Spark技术内幕:深入解析Spark内核架构设计与实现原理21.61M278人在用 Spark技术内幕:深入解析Spark内核架构设计与实现原理是一本Spark解析实用教学书籍,由张安站编著,全书详细剖析了Spark内核各个模块,以源码为基础,全面分析了Spark内核的各个模块的设计思想和实现原理,深入理解其内部运作机制乃至实现细
查看designspark mechanical官方版1.13G2665人在用 designspark mechanical官方版是一款专业的3D设计软件,能帮助设计人员把复杂的工作图分解成简单的草图进行制作,系统构建于AutoCAD平台之上,常用于二维绘图、详细绘制、设计文档和基本三维设计,现已成为国际上广为流行的绘图工具之
查看DesignSpark Electrical(电气CAD工具)1.13G205人在用 DesignSpark Electrical是一款专业的电气CAD工具,让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单,功能强大,不管是用户需要的纯设计工具、海量技术信息,还是完整的设计生态系统,软件都可以与用户正在使用的设计
查看热门标签
网友评论0人参与,0条评论
最新排行
python高手之路第3版135.03M王飞龙 pdf扫描版 python高手之路第3版是一本Python编程技术提升书籍,由朱利安·丹乔编著,王飞龙翻译。本书是作者开发OpenStack这个大规模项目时的所有经验总结,书中介绍了测试、移植、扩展Python应用程序和库等方面的实际问题并提供了相应的解决方案,
查看Ajax原理与系统开发143.95M陈锋敏pdf扫描版Ajax原理与系统开发是一本Web前端Ajax框架原理与系统开发书籍,由陈锋敏编著。本书内容丰富,翔实,以真实的项目开发与实现为主线,对各个设计元素进行了深入的讲解。同时精选多个典型案例,并结合基础知识对系统进行分析、设计与编程实现,可以帮助读者学习并掌
查看asp.net开发实战宝典127.27Masp.net是微软公司推出的新一代建立动态web应用程序开发平台,可以把程序开发人员的工作效率提升到与其他技术无法比拟的程序,但如何更好的入门和掌握呢?这里小编推荐大家阅读asp.net开发实战宝典,这是一本asp.net的实战开发手册,由张跃廷等人编
查看HTML+CSS网站开发兵书204.02M高洪涛pdf扫描版 HTML+CSS网站开发兵书是一本教你如何使用HTML和CSS来开发网站的网站开发教材书籍,由高洪涛编著。本书是一本与众不同的HTML标记语言读物,以实际的网页为主,为读者展现了网页的组成部分及各部分的设计。其他类似的书都是以HTML标签来讲解,本
查看Android底层开发实战28.68M周庆国pdf扫描版 android底层开发实战是一本安卓底层开发实战手册,也是掌握Android底层软件开发必备的工具书,由周庆国、郑灵翔、康筱彬和刘同山共同编著。本书对Android底层源码进行了系统的剖析,不仅覆盖了必要的嵌入式系统理论和Linux的基础知识,还对
查看海量运维运营规划之道37.36M唐文 pdf全彩版 海量运维运营规划之道是腾讯、百度一线资深工程师唐文多年经验总结而成的一本书籍,本书把当今中国一线互联网公司的运维工作,成体系地搬到了大家面前,让大家看到中国一线互联网公司是如何做技术运维工作、如何做产品速度体验优化的,以及做这些工作的方法论。同时,
查看2017通信与广电工程管理与实务22Mpdf高清版 2017通信与广电工程管理与实务就由中国通信企业协会通信工程建设分会组织通信行业富有技术和管理实践经验的专家,依据2013年新修订的《一级建造师执业资格考试大纲>> (通信与广电工程)科目考试大纲编写而成,全书阐述了从事通信与广电工程项
查看《口译实例与技巧》电子版17.78MPDF高清扫描版 口译实例与技巧是冯建中教授主编的国内第一部口译实战案例与译员经验合集,是《实用英语口译教程》和《英汉口译实练》两部教材的指定配套读物。我们为什么要学习英语?是为了更好的了解国外的先进技术,因为我们国家现在还处在发展阶段,很多东西都不如外国的先进,所
查看