大小:125.52M
更新时间:23-09-05
系统:Pc
spark大数据实例开发教程是面向Spark开发者的一本实用参考书,是大数据资深培训师王家林最新作品。本书内容广度和深度兼顾,书中内容全面覆盖了Spark技术的核心知识点,全程注重从架构的底层到上层,由宏观到微观的讲解。全书都秉承“实战”类图书特色,解析大量案例和代码的编写操作,具有较强的可操作性,便于读者学习和理解,非常刚接触Spark或对Spark分布式计算的开发不熟悉的初学者。对于熟悉函数式开发或面向对象开发,并有一定经验的开发者。
《spark大数据实例开发教程》中首先通过介绍Spark的生态系统和RDD编程模型,使读者能够快速的对Spark技术的生态环境以及对Spark的RDD编程模型有个非常直观的了解。
首先介绍了Spark应用的两种部署模式;然后在应用部署模式基础上,开始Spark实战的案例与解析,通过提供一个完整的基础案例,使读者了解一个Spark应用的大致处理流程;接着对实战中的重点部分,结合源码分析、监控日志分析等深入解析了Spark运行机制、DAG图等关键内容;后给出Spark开发者常用的应用程序构建案例与分析,以及调试环境搭建的案例与应用调试的案例。
第1章Spark简介
1.1什么是Spark
1.2Spark生态圈
1.2.1伯克利数据分析协议栈
1.2.2Spark开源社区发展
1.3RDD编程模型
1.3.1RDD抽象概念
1.3.2RDD的操作
1.3.3RDD的依赖关系
1.3.4一个典型的DAG示意图
第2章Spark RDD实践案例与解析
2.1Spark应用程序部署
2.1.1Spark应用的基本概念
2.1.2应用程序的部署方式
2.2RDD数据的输入、处理、输出的基本案例与解析
2.2.1集群环境的搭建
2.2.2交互式工具的启动
2.2.3文本数据的ETL案例实践与解析
2.2.4文本数据的初步统计案例实践与解析
2.2.5文本数据统计结果的持久化案例实践与解析
2.2.6RDD的Lineage关系的案例与源码解析
2.2.7RDD的持久化案例与解析
2.2.8RDD的构建案例与解析
2.2.9分区数设置的案例与源码解析
2.3RDD API的应用案例与解析
2.3.1如何查找RDD API的隐式转换
2.3.2RDD[T]的分区相关的API
2.3.3RDD[T]常用的聚合API
2.3.4DoubleRDDFunctions(self:RDD[Double])常用的API
2.3.5PairRDDFunctions[K,V]聚合相关的API
2.3.6RDD相互间操作的API
2.3.7PairRDDFunctions[K,V]间的相关API
2.3.8OrderedRDDFunctions[K,V,P:Product2K,V]常用的API
2.4Spark应用程序构建
2.4.1基于SBT构建Spark应用程序的实例
2.4.2基于IDEA构建Spark应用程序的实例
2.4.3Spark提交应用的调试实例
2.5移动互联网数据分析案例与解析
2.5.1移动互联网数据的准备
2.5.2移动互联网数据分析与解析
2.6Spark RDD实践中的常见问题与解答
第3章Spark SQL实践案例与解析
3.1Spark SQL概述
3.2DataFrame处理的案例与解析
3.2.1DataFrame编程模型
3.2.2DataFrame基本操作案例与解析
3.2.3DataFrame与RDD之间的转换案例与解析
3.2.4缓存表(列式存储)的案例与解析
3.2.5DataFrame API的应用案例与分析
3.3Spark SQL处理各种数据源的案例与解析
3.3.1通用的加载/保存功能的案例与解析
3.3.2Parquet文件处理的案例与解析
3.3.3JSON数据集操作的案例与解析
3.3.4操作Hive表的案例与解析
3.3.5使用JDBC操作其他数据库的案例与解析
3.3.6集成Hive数据仓库的案例与解析
3.4基于Hive的人力资源系统数据处理案例与解析
3.4.1人力资源系统的数据库与表的构建
3.4.2人力资源系统的数据的加载
3.4.3人力资源系统的数据的查询
第4章Spark Streaming实践案例与解析
4.1Spark Streaming概述
4.2Spark Streaming基础概念
4.3企业信息实时处理的案例与解析
4.3.1处理TCP数据源的案例与解析
4.3.2处理HDFS文件数据源的案例与解析
4.3.3处理Kafka数据源的准备工作
4.3.4基于Receiver读取Kafka数据的案例与解析
4.3.5直接读取(无Receiver)Kafka数据的案例与解析
4.3.6处理Flume数据源的实践准备
4.3.7基于Flume风格的推送数据案例与解析
4.3.8定制FlumeSink的拉取数据案例与解析
4.4性能调优
4.4.1减少批处理的时间
4.4.2设置正确的批间隔
4.4.3内存调优
第5章Tachyon实践案例与解析
5.1Tachyon概述
5.2重新编译部署包
5.2.1重新编译Tachyon的部署包
5.2.2重新编译Spark的部署包
5.3Tachyon部署的案例与解析
5.3.1单机模式部署的案例与解析
5.3.2集群模式部署的案例与解析
5.3.3集群Master容错部署的案例与解析
5.4Tachyon配置的案例与解析
5.4.1底层存储系统的配置案例与解析
5.4.2配置属性与解析
5.5命令行接口的案例与解析
5.5.1命令行接口的说明
5.5.2命令行接口的案例实践与解析
5.6同步底层文件系统的案例与解析
5.6.1同步HDFS底层文件系统的案例与解析
5.6.2同步本地底层文件系统的案例与解析
5.7基于Tachyon运行的案例与解析
5.7.1基于Tachyon运行Spark的案例与解析
5.7.2基于Tachyon运行Hadoop MR的案例与解析
应用信息
同类热门
类似软件
DesignSparkPCB印刷电路板工具139.57M266人在用 DesignSpark PCB是一款由RS Components基于AutoCAD平台开发的印刷电路板(PCB)设计工具,能轻松进行原理图捕获,设计、编辑原理图及电路板布线图。支持使用Library Manager中的“3D 视图”选项卡建立3D
查看
spark高级数据分析5.79M323人在用 spark高级数据分析是一本Spark实用手册,由著名大数据公司Cloudera的四名数据科学家编写,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。全书将Spark、统计学方法和真实数据集结合起来,通过实例向读者
查看
DesignSpark Electrical(电气CAD工具)1.13G278人在用 DesignSpark Electrical是一款专业的电气CAD工具,让电气设计师和自动化工程师可快速并精准地设计、修改电气系统。操作简单,功能强大,不管是用户需要的纯设计工具、海量技术信息,还是完整的设计生态系统,软件都可以与用户正在使用的设计
查看
Spark技术内幕:深入解析Spark内核架构设计与实现原理21.61M289人在用 Spark技术内幕:深入解析Spark内核架构设计与实现原理是一本Spark解析实用教学书籍,由张安站编著,全书详细剖析了Spark内核各个模块,以源码为基础,全面分析了Spark内核的各个模块的设计思想和实现原理,深入理解其内部运作机制乃至实现细
查看
Spark核心技术与高级应用38.49M212人在用Spark核心技术与高级应用是Spark领域少有的专注于核心原理与深度应用的著作,由科大讯飞和百分点科技的4位大数据专家撰写。全书不仅细致介绍了Spark的程序开发、编程模型、作业执行解析等基础知识,而且还深度讲解了Spark SQL、Spark ML、
查看
apache spark 源码剖析30.99M184人在用apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,
查看
designspark mechanical官方版1.13G3120人在用 designspark mechanical官方版是一款专业的3D设计软件,能帮助设计人员把复杂的工作图分解成简单的草图进行制作,系统构建于AutoCAD平台之上,常用于二维绘图、详细绘制、设计文档和基本三维设计,现已成为国际上广为流行的绘图工具之
查看热门标签
网友评论0人参与,0条评论
最新排行
征服c指针pdf高清版7.14M前桥和弥pdf扫描版 征服c指针是专业的一本纯讲解C指针的书,由日本程序员前桥和弥编著。全书结合开发人员多年的编程经验和感悟,介绍了指针在数组中的应用、在函数中的应用、指向指针的指针、数据结构中指针的应用,指向文件类型的指针、指针在c语言算法中的应用,覆盖了所有重要的C
查看
CCNA学习指南640-802第7版84.2Mpdf扫描版CCNA认证是思科认证过程的第一步,是当今所有思科认证的前提,但如何才能更好的入门呢?小编这里推荐大家阅读CCNA学习指南640-802第7版,这是国内首屈一指的CCNA应试宝典,由美国思科网络技术作家Todd Lammle编著。本书内容丰富翔实,全面系
查看
oracle dba手记3数据库性能优化与内部原理解析44.8M盖国强pdf扫描版 oracle dba手记3,全称oracle dba手记3数据库性能优化与内部原理解析,是一本面向程序员的数据库访问性能优化法则,由由盖国强,杨廷琨,冯春培等人编著。全书分为四篇,第一篇为dba之路,由冯春培编写,是他对多年的职业经历与行业观察的总
查看
Scala程序设计第二版15.83Mpdf高清完整版想要学习Scala程序设计看哪方面的书籍好呢?小编推荐您看看这本Scala程序设计第二版pdf格式的电子书,这本书里主要讲解了Scala的函数式风格、自适应类型、闭包、XML处理、模式匹配和并发编程等内容。本书既适合Scala初学者入门,也适合经验丰富的
查看
android开发艺术探索172.99M android开发艺术探索是一本安卓系统软件开发设计图书,由任玉刚编著。本书采用理论、源码和实践相结合的方式阐述高水准的android应用开发要点。首先介绍了android开发者不容易掌握的知识点;其次,结合android源代码和应用层开发过程,融
查看
hadoop核心技术pdf44.83M翟周伟pdf扫描版Hadoop核心技术是由百度Hadoop技术专家翟周伟撰写的一本Hadoop技术学习书籍,全书结合了百度大数据实践,直击企业痛点,主要对Hadoop的基本原理和优化配置由浅入深进行了详细分析,最后通过实战案例进一步讲解分析。本书对HDFS、MapRedu
查看
硬件架构的艺术数字电路的设计方法与技术37.73Mpdf扫描版 硬件架构的艺术数字电路的设计方法与技术是由印度半导体公司高级系统工程师Mohit Arora编著的一本硬件架构设计图书,简称为硬件架构的艺术,是李海东,来萍,师谦等翻译,机械工业出版社出版。全书主要内容涉及时钟和复位,多时钟域设计,时钟分频器,低功
查看
visual c++2010入门经典第5版96.63M霍顿 pdf扫描版visual c++2010入门经典第5版是一本C++代码入门经典,由霍顿(Ivor Horton)编著,苏正,李文娟共同翻译。本书使用了visual C++ 2010支持的两种C++语言技术来讲述C++编程的基础知识,讨论了每一个windows应用程序
查看
大规模web服务开发技术pdf版132.09M伊藤直也 田中慎司pdf高清完整版大规模web服务开发技术是一款介绍web服务开发的教材,由伊藤直也,田中慎司[日本]编著,李剑译,电子工业出版社出版。全书内容从操作系统和计算机的原理开始,详细介绍了数据库的分布式方法、实用算法在系统中的应用、能支撑海量数据的搜索引擎的原理,以及统观系统
查看
中国起名实用大全书籍电子版19.09M巨天中编著 中国起名实用大全是一本关于如何起名,改名的实用图书,作者巨天中,长征出版社发行。全书共三编,内容包括古人改名趣事、依据什么理论来取名改名、取名改名的策略、26种取名改名艺术方法、取名改名禁忌、企业名称设计策略等内容,可以帮助用户更好的起名以及改名,
查看
大巧不工Web前端设计修炼之道80.39MPDF中文版大巧不工Web前端设计修炼之道是一本PDF中文版的电子书籍,非常的实用,它全面探讨了web前端设计的方法、原则、技巧和最佳实践。全书共8章,以web前端设计的流程为主线,以前端设计的方法和原则为基础,围绕原型设计、模型设计、可用性设计、一致性设计和以用户
查看
高性能mysql第3版中文版pdf70.65M高性能mysql第3版是mysql领域的经典之作,由baron scbwartz、peter zaitsev、vadim tkacbenko著作,宁海元、周振、彭立勋、翟卫祥等翻译。第3版更新了大量的内容,不但涵盖了最新mysql5.5版本的新特性,也讲
查看