大小:29.89M
更新时间:23-08-12
系统:Pc
Spark最佳实践是一本Spark的战指南,由腾讯著名研发者陈欢和林世飞共同编著,全书基于真实数据,用案例分析全面解读大数据应用设计,采用了由浅入深的写作手法,前面主要讲解了Spark的部署、工作机制和内核,后又通过实战项目来介绍Spark SQL、Spark streaming 功能模块,一步步的教你如何快速掌握使用Spark,并且本书还附有大量的实战问题,非常大数据开发和运维人员下载学习参考。
Spark最佳实践全书共分8章。前4章介绍Spark的部署、工作机制和内核,全书的重点在第5章到第8章,每章不但深入浅出的介绍Spark的一个功能模块,而且还包含了实战项目。后4章分别通过实战项目介绍SparkSQL、SparkStreaming、SparkGraphX和SparkMLib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本,更能为初学者提供很大帮助。
陈欢,腾讯杰出程序员,15年编码经验,曾任职网络安全、互联网金融等部门,亲手从零建设了财付通业务的Spark集群,并使之同时支持SQL、实时计算、机器学习等多种数据计算场景。他目前就职于腾讯社交与效果广告部,从事大数据分析工作。
林世飞,腾讯杰出研究员,2005年加入腾讯,先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解,热衷知识传播和分享,曾获腾讯学院2009年年度杰出讲师。目前,他就职于社交与效果广告部,负责广告系统相关的研发工作。
第1 章 Spark 与大数据 1 1.1 大数据的发展及现状 1 1.1.1 大数据时代所面临的问题 1 1.1.2 谷歌的大数据解决方案 2 1.1.3 Hadoop 生态系统 3 1.2 Spark 应时而生 4 1.2.1 Spark 的起源 4 1.2.2 Spark 的特点 5 1.2.3 Spark 的未来发展 6 第2 章 Spark 基础 8 2.1 Spark 本地单机模式体验 8 2.1.1 安装虚拟机 8 2.1.2 安装JDK 19 2.1.3 下载Spark 预编译包 21 2.1.4 本地体验Spark 22 2.2 高可用Spark 分布式集群部署 25 2.2.1 集群总览 26 2.2.2 集群机器的型号选择 28 2.2.3 初始化集群机器环境 29 2.2.4 部署ZooKeeper 集群 33 2.2.5 编译Spark 35 2.2.6 部署Spark Standalone 集群 37 2.2.7 高可用Hadoop 集群 40 2.2.8 让Spark 运行在YARN 上 40 2.2.9 一键部署高可用Hadoop + Spark 集群 42 2.3 Spark 编程指南 43 2.3.1 交互式编程 43 2.3.2 RDD 创建 44 2.3.3 RDD 操作 47 2.3.4 使用其他语言开发Spark 程序 54 2.4 打包和提交 54 2.4.1 编译、链接、打包 54 2.4.2 提交 56 第3 章 Spark 工作机制 58 3.1 调度管理 58 3.1.1 集群概述及名词解释 58 3.1.2 Spark 程序之间的调度 60 3.1.3 Spark 程序内部的调度 63 3.2 内存管理 65 3.2.1 RDD 持久化 65 3.2.2 共享变量 66 3.3 容错机制 67 3.3.1 容错体系概述 67 3.3.2 Master 节点失效 68 3.3.3 Slave 节点失效 69 3.4 监控管理 69 3.4.1 Web 界面 69 3.4.2 REST API 72 3.4.3 Metrics 指标体系 73 3.4.4 其他监控工具 73 3.5 Spark 程序配置管理 73 3.5.1 Spark 程序配置加载过程 74 3.5.2 环境变量配置 74 3.5.3 Spark 属性项配置 74 3.5.4 查看当前的配置 76 3.5.5 配置Spark 日志 76 第4 章 Spark 内核讲解 77 4.1 Spark 核心数据结构RDD 77 4.1.1 RDD 的定义 78 4.1.2 RDD 的Transformation 80 4.1.3 RDD 的Action 82 4.1.4 Shuffle 83 4.2 SparkContext 84 4.2.1 SparkConf 配置 84 4.2.2 初始化过程 85 4.2.3 其他功能接口 87 4.3 DAG 调度 87 4.3.1 DAGScheduler 87 4.3.2 TaskScheduler 90 第5 章 Spark SQL 与数据仓库 92 5.1 Spark SQL 基础 93 5.1.1 分布式SQL 引擎 93 5.1.2 支持的SQL 语法 97 5.1.3 支持的数据类型 98 5.1.4 DataFrame 99 5.1.5 DataFrame 数据源 103 5.1.6 性能调优 104 5.2 Spark SQL 原理和运行机制 104 5.2.1 Spark SQL 整体架构 105 5.2.2 Catalyst 执行优化器 105 5.3 应用场景:基于淘宝数据建立电商 数据仓库 110 5.3.1 电商数据仓库场景 111 5.3.2 数据准备和表设计 111 5.3.3 用Spark SQL 来完成日常运营 数据分析 115 5.3.4 Spark SQL 在大规模数据下的 性能表现 120 第6 章 Spark 流式计算 122 6.1 Spark Streaming 基础知识 123 6.1.1 入门简单示例 123 6.1.2 基本概念 124 6.1.3 高级操作 129 6.2 深入理解Spark Streaming 132 6.2.1 DStream 的两类操作 132 6.2.2 容错处理 134 6.2.3 性能调优 136 6.2.4 与Storm 的对比 137 6.3 应用场景:一个类似百度统计的流式 实时系统 139 6.3.1 Web log 实时统计场景 139 6.3.2 日志实时采集 140 6.3.3 流式分析系统实现 140 第7 章 Spark 图计算 149 7.1 什么是图计算 149 7.1.1 图的基本概念 149 7.1.2 图计算的应用 150 7.2 Spark GraphX 简介 151 7.2.1 GraphX 实现 151 7.2.2 GraphX 常用API 介绍 152 7.3 应用场景:基于新浪微博数据的社交 网络分析 153 7.3.1 社交网络分析的主要应用 153 7.3.2 社区发现算法简介 154 7.3.3 用GraphX 实现Louvain 算法 156 7.3.4 小试牛刀:谁是你的闺蜜 162 7.3.5 真实的场景:新浪微博关系 分析 164 第8 章 Spark MLlib 169 8.1 机器学习简介 169 8.1.1 什么是机器学习 169 8.1.2 机器学习示例 171 8.1.3 机器学习的基本方法 172 8.1.4 机器学习的常见技巧 173 8.1.5 机器学习参考资料 174 8.2 MLlib 库简介 174 8.2.1 基础数据类型 174 8.2.2 主要的库 175 8.2.3 附带的示例程序 176 8.3 应用场景:搜索广告点击率 预估系统 178 8.3.1 应用场景 178 8.3.2 逻辑回归 179 8.3.3 学习算法 181 8.3.4 模型评估 184 8.3.5 数据准备 186 8.3.6 模型训练 187 8.3.7 模型调优 195 附录 Scala 语言参考 197
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
同类热门
类似软件
apache spark 源码剖析30.99M157人在用apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,
查看spark高级数据分析5.79M285人在用spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了
查看designspark mechanical官方版1.13G2339人在用 designspark mechanical官方版是一款专业的3D设计软件,能帮助设计人员把复杂的工作图分解成简单的草图进行制作,系统构建于AutoCAD平台之上,常用于二维绘图、详细绘制、设计文档和基本三维设计,现已成为国际上广为流行的绘图工具之
查看DesignSpark Electrical(电气CAD工具)1.13G167人在用 DesignSpark Electrical是一款专业的电气CAD工具,让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单,功能强大,不管是用户需要的纯设计工具、海量技术信息,还是完整的设计生态系统,软件都可以与用户正在使用的设计
查看Spark技术内幕:深入解析Spark内核架构设计与实现原理21.61M266人在用Spark技术内幕:深入解析Spark内核架构设计与实现原理是一本Spark解析实用教学书籍,由张安站编著,全书详细剖析了Spark内核各个模块,以源码为基础,全面分析了Spark内核的各个模块的设计思想和实现原理,深入理解其内部运作机制乃至实现细节,帮
查看DesignSparkPCB印刷电路板工具137.49M213人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板(PCB)设计工具,能轻松进行原理图捕获,设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看Spark核心技术与高级应用38.49M189人在用Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。全书不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了Spark SQL、Spark ML、
查看热门标签
网友评论0人参与,0条评论
最新排行
php与mysql程序设计(第3版)134.16M吉尔摩pdf扫描版php与mysql程序设计(第3版)是一本PHP、MySQL程序设计指导手册,由美国前端工程师吉尔摩编著。全书主题的选取和组织从实用出发,在讲述知识之外还加入了作者多年积累的宝贵实战经验,并提供了500多个可以直接用于实际项目的代码示例,充分体现了作者深
查看android开发艺术探索172.99Mandroid开发艺术探索是一本安卓系统软件开发设计图书,由任玉刚编著。本书采用理论、源码和实践相结合的方式阐述高水准的android应用开发要点。首先介绍了android开发者不容易掌握的知识点;其次,结合android源代码和应用层开发过程,融会贯通
查看AJAX安全技术下载pdf高清版44.17Mpdf高清版AJAX安全技术是一款pdf高清版的电子图书,本书对AJAX安全开发领域进行了严谨、彻底的探讨,系统地分析了当今最危险的AJAX漏洞,用现实中的代码阐述了大量关键性的安全理念,并对实际中的案例,例如MySpace的Samy蠕虫病毒,进行了详尽分析。更重要
查看软件加密与解密pdf64.48M扫描版软件加密与解密是一本对抗软件盗版、篡改和恶意逆向工程的理论、技巧和工具,由 Christian Collberg和Jasvir Nagra两人共同编著,崔孝晨翻译。本书详尽地介绍了软件加密与解密的相关技术,涵盖了计算机科学的各个相关领域,包括密码学、隐写
查看C程序设计伴侣:帮你更好地理解谭浩强老师的那本书以及更多42.95M陈良乔pdf扫描版C程序设计伴侣:帮你更好地理解谭浩强老师的那本书以及更多是谭浩强编著的经典的C程序设计的最佳伴侣,由陈良乔编著。本书针对C语言中的重点和难点,进行了更加生动有趣、更加深刻,但同时又更容易理解的阐述。读者在学习之后,不仅会对C语言中的各种知识有更加生动形象
查看c专家编程pdf高清版12.94M林登C专家编程是一本C编程语言程序设计经典著作,也是C语言入门软件开发宝典,由林登(LinDen P.V.D)编著。本书讲述的是应用于pc和unix系统上的ansi标准c语言。对于c语言中与unix平台复杂的硬件结构相关的特性作了详细描述。对于pc的内存模型
查看电路第五版邱关源课后答案详解pdf5.2M高清电子版电路第五版邱关源课后答案详解全称叫做电路第5版学习指导与习题分析,由刘崇新,罗先觉著,是电路第五版配套用书,主要面向学生和自学读者。全书内容次序与电路第5版一致,每章包括重点和难点,学习方法指导,典型例题和习题解答,有助于学生理解基本概念,掌握基本原理和
查看spring源码深度解析94.36M郝佳 pdf扫描版spring源码深度解析是一本spring框架揭秘实战指南,由郝佳编著。本书从核心实现和企业应用两个方面,由浅入深、由易到难地对Spring源码展开了系统的讲解,包括Spring的设计理念和整体架构、容器的基本实现、默认标签的解析、自定义标签的解析、be
查看SQL Server 2008高级程序设计99.46MPDF中文版SQL Server 2008高级程序设计是一本pdf中文版的高清电子书,全书首先介绍了sql2008的新功能,然后在更详实的示例代码的引导下全面深入地展开论述,讨论了如何编写复杂查询,构建各种数据结构以及提高应用程序性能,还讲述了如何管理高级脚本和数据
查看