大小:29.89M
更新时间:23-08-12
系统:Pc
版本:v
Spark最佳实践是一本Spark的战指南,由腾讯著名研发者陈欢和林世飞共同编著,全书基于真实数据,用案例分析全面解读大数据应用设计,采用了由浅入深的写作手法,前面主要讲解了Spark的部署、工作机制和内核,后又通过实战项目来介绍Spark SQL、Spark streaming 功能模块,一步步的教你如何快速掌握使用Spark,并且本书还附有大量的实战问题,非常大数据开发和运维人员下载学习参考。
Spark最佳实践全书共分8章。前4章介绍Spark的部署、工作机制和内核,全书的重点在第5章到第8章,每章不但深入浅出的介绍Spark的一个功能模块,而且还包含了实战项目。后4章分别通过实战项目介绍SparkSQL、SparkStreaming、SparkGraphX和SparkMLib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本,更能为初学者提供很大帮助。
陈欢,腾讯杰出程序员,15年编码经验,曾任职网络安全、互联网金融等部门,亲手从零建设了财付通业务的Spark集群,并使之同时支持SQL、实时计算、机器学习等多种数据计算场景。他目前就职于腾讯社交与效果广告部,从事大数据分析工作。
林世飞,腾讯杰出研究员,2005年加入腾讯,先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解,热衷知识传播和分享,曾获腾讯学院2009年年度杰出讲师。目前,他就职于社交与效果广告部,负责广告系统相关的研发工作。
第1 章 Spark 与大数据 1 1.1 大数据的发展及现状 1 1.1.1 大数据时代所面临的问题 1 1.1.2 谷歌的大数据解决方案 2 1.1.3 Hadoop 生态系统 3 1.2 Spark 应时而生 4 1.2.1 Spark 的起源 4 1.2.2 Spark 的特点 5 1.2.3 Spark 的未来发展 6 第2 章 Spark 基础 8 2.1 Spark 本地单机模式体验 8 2.1.1 安装虚拟机 8 2.1.2 安装JDK 19 2.1.3 下载Spark 预编译包 21 2.1.4 本地体验Spark 22 2.2 高可用Spark 分布式集群部署 25 2.2.1 集群总览 26 2.2.2 集群机器的型号选择 28 2.2.3 初始化集群机器环境 29 2.2.4 部署ZooKeeper 集群 33 2.2.5 编译Spark 35 2.2.6 部署Spark Standalone 集群 37 2.2.7 高可用Hadoop 集群 40 2.2.8 让Spark 运行在YARN 上 40 2.2.9 一键部署高可用Hadoop + Spark 集群 42 2.3 Spark 编程指南 43 2.3.1 交互式编程 43 2.3.2 RDD 创建 44 2.3.3 RDD 操作 47 2.3.4 使用其他语言开发Spark 程序 54 2.4 打包和提交 54 2.4.1 编译、链接、打包 54 2.4.2 提交 56 第3 章 Spark 工作机制 58 3.1 调度管理 58 3.1.1 集群概述及名词解释 58 3.1.2 Spark 程序之间的调度 60 3.1.3 Spark 程序内部的调度 63 3.2 内存管理 65 3.2.1 RDD 持久化 65 3.2.2 共享变量 66 3.3 容错机制 67 3.3.1 容错体系概述 67 3.3.2 Master 节点失效 68 3.3.3 Slave 节点失效 69 3.4 监控管理 69 3.4.1 Web 界面 69 3.4.2 REST API 72 3.4.3 Metrics 指标体系 73 3.4.4 其他监控工具 73 3.5 Spark 程序配置管理 73 3.5.1 Spark 程序配置加载过程 74 3.5.2 环境变量配置 74 3.5.3 Spark 属性项配置 74 3.5.4 查看当前的配置 76 3.5.5 配置Spark 日志 76 第4 章 Spark 内核讲解 77 4.1 Spark 核心数据结构RDD 77 4.1.1 RDD 的定义 78 4.1.2 RDD 的Transformation 80 4.1.3 RDD 的Action 82 4.1.4 Shuffle 83 4.2 SparkContext 84 4.2.1 SparkConf 配置 84 4.2.2 初始化过程 85 4.2.3 其他功能接口 87 4.3 DAG 调度 87 4.3.1 DAGScheduler 87 4.3.2 TaskScheduler 90 第5 章 Spark SQL 与数据仓库 92 5.1 Spark SQL 基础 93 5.1.1 分布式SQL 引擎 93 5.1.2 支持的SQL 语法 97 5.1.3 支持的数据类型 98 5.1.4 DataFrame 99 5.1.5 DataFrame 数据源 103 5.1.6 性能调优 104 5.2 Spark SQL 原理和运行机制 104 5.2.1 Spark SQL 整体架构 105 5.2.2 Catalyst 执行优化器 105 5.3 应用场景:基于淘宝数据建立电商 数据仓库 110 5.3.1 电商数据仓库场景 111 5.3.2 数据准备和表设计 111 5.3.3 用Spark SQL 来完成日常运营 数据分析 115 5.3.4 Spark SQL 在大规模数据下的 性能表现 120 第6 章 Spark 流式计算 122 6.1 Spark Streaming 基础知识 123 6.1.1 入门简单示例 123 6.1.2 基本概念 124 6.1.3 高级操作 129 6.2 深入理解Spark Streaming 132 6.2.1 DStream 的两类操作 132 6.2.2 容错处理 134 6.2.3 性能调优 136 6.2.4 与Storm 的对比 137 6.3 应用场景:一个类似百度统计的流式 实时系统 139 6.3.1 Web log 实时统计场景 139 6.3.2 日志实时采集 140 6.3.3 流式分析系统实现 140 第7 章 Spark 图计算 149 7.1 什么是图计算 149 7.1.1 图的基本概念 149 7.1.2 图计算的应用 150 7.2 Spark GraphX 简介 151 7.2.1 GraphX 实现 151 7.2.2 GraphX 常用API 介绍 152 7.3 应用场景:基于新浪微博数据的社交 网络分析 153 7.3.1 社交网络分析的主要应用 153 7.3.2 社区发现算法简介 154 7.3.3 用GraphX 实现Louvain 算法 156 7.3.4 小试牛刀:谁是你的闺蜜 162 7.3.5 真实的场景:新浪微博关系 分析 164 第8 章 Spark MLlib 169 8.1 机器学习简介 169 8.1.1 什么是机器学习 169 8.1.2 机器学习示例 171 8.1.3 机器学习的基本方法 172 8.1.4 机器学习的常见技巧 173 8.1.5 机器学习参考资料 174 8.2 MLlib 库简介 174 8.2.1 基础数据类型 174 8.2.2 主要的库 175 8.2.3 附带的示例程序 176 8.3 应用场景:搜索广告点击率 预估系统 178 8.3.1 应用场景 178 8.3.2 逻辑回归 179 8.3.3 学习算法 181 8.3.4 模型评估 184 8.3.5 数据准备 186 8.3.6 模型训练 187 8.3.7 模型调优 195 附录 Scala 语言参考 197
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
同类热门
类似软件
DesignSparkPCB印刷电路板工具137.49M175人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板(PCB)设计工具,能轻松进行原理图捕获,设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看DesignSpark Electrical302.96M112人在用DesignSpark Electrical是一款专业的电气CAD工具,让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单,功能强大,不管是用户需要的纯设计工具、海量技术信息,还是完整的设计生态系统,软件都可以与用户正在使用的设计工具无
查看Spark核心技术与高级应用38.49M170人在用Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。全书不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了Spark SQL、Spark ML、
查看Spark技术内幕:深入解析Spark内核架构设计与实现原理21.61M248人在用Spark技术内幕:深入解析Spark内核架构设计与实现原理是一本Spark解析实用教学书籍,由张安站编著,全书详细剖析了Spark内核各个模块,以源码为基础,全面分析了Spark内核的各个模块的设计思想和实现原理,深入理解其内部运作机制乃至实现细节,帮
查看spark高级数据分析5.79M237人在用spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了
查看designspark mechanical官方版1.13G1370人在用 designspark mechanical官方版是一款专业的3D设计软件,能帮助设计人员把复杂的工作图分解成简单的草图进行制作,系统构建于AutoCAD平台之上,常用于二维绘图、详细绘制、设计文档和基本三维设计,现已成为国际上广为流行的绘图工具之
查看apache spark 源码剖析30.99M133人在用apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,
查看热门标签
网友评论0人参与,0条评论
最新排行
neat reader绿色版66.11Mv8.1.4电脑版 neat reader是一款支持Windows,Mac,Android,iOS,以及浏览器使用的全平台EPUB阅读器,但是许多功能都需要开通会员才能使用,因此小编这次为大家带来的是neat reader绿色版,值得一提的是neat reader内置
查看11g101-3图集电子版4.67Mpdf高清版11g101-3图集,又称之为混凝土结构施工图03,官方全称为混凝土结构施工图平面整体表示方法制图规则和构造详图(独立基础、条形基础、筏形基础及桩基承台),由中华人民共和国住房和城乡建设部批准,中国建筑标准设计研究院编制,可以替代04G101-3、08G
查看Android开发精要17.08MAndroid开发精要是由资深Android专家范怀宇编著的一本Android开发手册,本书详细介绍了高度抽象Android系统的设计理念和底层实现机制,全面概括Android实现原理的“要点”和实际开发中的“精华”,为开发高质量Android应用提供指
查看游戏架构设计与策划基础26.42M黄石pdf扫描版游戏架构设计与策划基础是一本游戏开发与策划教材,由黄石、李志远、陈洪三人共同编著。本书主要讲解了游戏相关专业的基础课程,如美术和编程等,然后本书又具体介绍了游戏策划、游戏背景设计、游戏关卡与任务设计、游戏界面与用户控制等一系列游戏策划和架构设计流程,突出
查看c++入门经典 第9版261.87Mpdf扫描版 c++入门经典 第9版是一本C++语言入门指导书,由美国程序员Walter Savitch编著。本书内容丰富,风格清晰,每一章都是C++的重要知识点,越往后将越加深奥与困难,不过不用太担心,请认真阅读书中章开头的小节总览和随处可见的小结框,它们可以
查看Oracle数据库备份恢复与迁移71.47M刘宪军pdf扫描版 Oracle数据库备份恢复与迁移是一本Oracle数据库数据管理书籍,由刘宪军编著,本书的编写目的,并不在于简单介绍 Oracle 所提供的备份、恢复与迁移方法,而是告诉大家,在什么情况下使用什么方法,为什么使用这样的方法。全书提供了Oracle数
查看spring+mybatis企业应用实战42.14M疯狂软件pdf高清扫描版spring+mybatis企业应用实战是一本Spring MVC+MyBatis技术以及两者整合的实用图书,由疯狂软件编著,全书重点介绍如何整合Spring MVC 4+MyBatis3进行java ee开发,主要包括三个部分。第一部分详细介绍了Spr
查看android板级支持与硬件相关子系统141.16Mandroid板级支持与硬件相关子系统是一本板级支持与硬件相关子系统书籍,由韩超编著。本书特别选定了Nexus One、Nexus S、Galaxy Nexus等几款手机作为参考平台。其中一个很大的优点就是以上几个平台都是Google认定的,具有典型性,
查看Cassandra实战30.27M郭鹏pdf扫描版Cassandra实战是一本Cassandra实战手册,由郭鹏编著。本书内容丰富,主要讲解了Cassandra快速入门、理解Cassandra编程接口、基于Cassandra的在线交易系统、Cassandra的集群机制、 Cassandra的内部数据存储
查看零基础学C语言(第2版)104.05M康莉pdf扫描版零基础学C语言(第2版)是一本c语言的基础入门图书,由程序员康莉、李宽,陈国建编著。本书由浅入深,循序渐进,全书分为编程基础、编程进阶、编程应用、项目实战、上机练习、面试指南六个阶段进行讲解,同时书中还拥有大量的实例、练习题和面试题,能够全方位的帮助你学
查看