大小:32.57M
更新时间:24-04-22
系统:Pc
寻路大数据是Google大数据专家迈克尔·马诺切里的最新力作,本书从大数据系统的成功应用开始介绍,之后陆续对 NoSQL、分布式计算和CAP 理论进行了讲解。在介绍使用 Hadoop 和 Hive 分析大数据之后,又覆盖了使用 BigQuery 进行实时分析的相关内容。之后还包括了 MapReduce 流水线、Pig 和Cascading、使用 Mahout 进行机器学习等高级课题。
在书的结尾,读者会看到将Python 和 R 整合到大数据工具链中的实际案例。寻路大数据大部分章节都包含了很多例子以帮助读者学习和使用相关的大数据工具。如果你想要一本对大数据分析有一个全面了解的书籍,本书绝对是不二之选。
《寻路大数据》作者结合自己在Google 大数据平台工作的丰富经验,阐述了数据技术的方方面面。从数据收集、共享到数据存储,从分布式数据平台、分析型数据库到数据可视化,从数据工作流构建到大规模数据分析,作者不仅进行了全面而深入的介绍,更覆盖了目前流行的各种数据技术与工具,同时对技术选型提出了指导性的建议。最后,作者对数据挑战的非技术因素进行了深刻的分析,并对数据技术的发展趋势进行了展望,引人深思。本书对企业管理者、技术经理、数据分析师、数据应用开发人员和相关从业者都有很好的参考价值。决策者可以从中看到技术趋势,把握时代发展脉搏;数据分析人员可以看到经验的总结和工具的应用;其他从业者可以从中了解数据技术所涉及的各个方面。
第1 部分 大数据时代指引 1
第1 章 数据成功四原则 3
1.1 当数据成为一件“大”事 3
1.2 数据和单台服务器 4
1.3 大数据的权衡 5
1.3.1 构建可(限)扩展的解决方案 6
1.3.2 构建可(在互联网上)共享数据的系统 7
1.3.3 构建解决方案,而非基础设施 8
1.3.4 关注从数据中解放价值 8
1.4 大数据流水线剖析 9
1.5 终极数据库 10
1.6 总结 10
第2 部分 收集和共享海量数据 13
第2 章 托管和共享TB 级原始数据 15
2.1 文件之殇 16
2.1.1 共享大量文件的挑战 16
2.2 存储:基础设施即服务 17
2.2.1 网络很慢 18
2.3 选择合适的数据格式 18
2.3.1 XML :数据,描述你自己 20
2.3.2 JSON :程序员的选择 21
2.4 字符编码 22
2.4.1 文件转换 24
XXII 目录
2.5 移动中的数据:数据序列化格式 25
2.5.1 Apache Thrift 和Protocol Buffers 26
2.6 总结 27
第3 章 构建基于NoSQL 的Web 应用采集众包数据 29
3.1 关系型数据库:命令及控制 30
3.1.1 关系数据库的ACID 测试 32
3.2 当关系型数据库遇上互联网 33
3.2.1 CAP 原理与BASE 34
3.3 非关系型数据库的模式 36
3.3.1 键- 值数据库 36
3.3.2 文档存储 38
3.4 为写入性能优化:Redis 40
3.5 在多个Redis 实例上分片 43
3.5.1 使用Twemproxy 自动分区 44
3.5.2 Redis 的替代选项 46
3.6 NewSQL :Codd 归来 46
3.7 总结 47
第4 章 解决数据孤岛问题的策略 49
4.1 堆满术语的仓库 49
4.1.1 实践中的问题 51
4.1.2 数据合规与安全规划 52
4.1.3 走进数据仓库 53
4.1.4 数据仓库的口诀:抽取、转换和加载 54
4.2 Hadoop :数据仓库中的大象 55
4.3 数据孤岛也可能是个优点 55
4.3.1 专注于数据问题,而不是技术 56
4.3.2 鼓励员工提出他们自己的问题 57
4.3.3 投资沟通数据孤岛的技术 57
4.4 融合:数据孤岛的终结 58
目录XXIII
4.4.1 Luhn 的商业智能系统是否能成为现实 59
4.5 总结 59
第3 部分 数据探究 61
第5 章 使用Hadoop、Hive 和Shark 探索大规模数据集 63
5.1 什么是数据仓库 64
5.2 Apache Hive :在Hadoop 上进行交互式查询 66
5.2.1 Hive 用例 66
5.2.2 Hive 实战 67
5.2.3 在Hive 中使用其他数据源 71
5.3 Shark :以内存的速度进行查询 72
5.4 云中的数据仓库 73
5.5 总结 74
第6 章 使用Google BigQuery 构建数据信息中心 77
6.1 分析型数据库 78
6.2 Dremel :均贫富 79
6.2.1 Dremel 与MapReduce 的不同之处 80
6.3 BigQuery :数据分析即服务 81
6.3.1 BigQuery 的查询语言 82
6.4 建造自己的大数据信息面板 83
6.4.1 授权访问BigQuery API 84
6.4.2 运行查询并获取结果 87
6.4.3 缓存查询结果 88
6.4.4 添加可视化图形 89
6.5 分析型查询引擎的未来 91
6.6 总结 91
第7 章 探索大数据的可视化策略 93
7.1 警世良言:将数据翻译成故事 94
7.2 人类尺度 VS 机器尺度 97
XXIV 目录
7.2.1 交互性 97
7.3 开发交互式数据应用 98
7.3.1 使用R 和ggplot2 实现交互式可视化 98
7.3.2 matplotlib: Python 的2D 图形库 100
7.3.3 D3.js :用于Web 的交互式可视化库 100
7.4 总结 104
第4 部分 构建数据流水线 107
第8 章 整合:MapReduce 数据流水线 109
8.1 数据流水线是什么 109
8.1.1 正确的工具 110
8.2 使用Hadoop Streaming 搭建数据流水线 111
8.2.1 MapReduce 和数据转换 111
8.2.2 最简单的流水线:stdin 到stdout 113
8.3 单步MapReduce 变换 115
8.3.1 从原始NVSS 数据中抽取相关信息:map 阶段 116
8.3.2 合计每月出生数:reducer 阶段 117
8.3.3 在本地测试MapReduce 流水线 118
8.3.4 在Hadoop 集群上运行我们的MapReduce 作业 119
8.4 降低复杂性:Hadoop 上Python 的MapReduce 框架 120
8.4.1 使用mrjob 重写Hadoop Streaming 示例 121
8.4.2 建造一个多步流水线 122
8.4.3 在Elastic MapReduce 上运行mrjob 脚本 124
8.4.4 其他基于Python 的MapReduce 框架 125
8.5 总结 125
第9 章 使用Pig 和Cascading 构建数据转换工作流 127
9.1 大规模数据工作流实战 128
9.2 多步MapReduce 转换真复杂 128
9.2.1 Apache Pig :拒绝复杂 129
目录XXV
9.2.2 使用交互式Grunt shell 运行Pig 130
9.2.3 过滤和优化数据工作流 132
9.2.4 以批处理模式运行Pig 脚本 132
9.3 Cascading :构建健壮的数据工作流应用 133
9.3.1 以source 和sink 的方式思考 134
9.3.2 构建Cascading 应用 135
9.3.3 创建一个Cascade :一个简单的JOIN 例子 136
9.3.4 在Hadoop 集群上部署Cascading 应用 138
9.4 何时选择Pig 或Cascading 139
9.5 总结 140
第5 部分 基于大规模数据集的机器学习 141
第10 章 使用Mahout 构建数据分类系统 143
10.1 机器能否预测未来 144
10.2 机器学习的挑战 144
10.2.1 贝叶斯分类 146
10.2.2 聚类 146
10.2.3 推荐引擎 148
10.3 Apache Mahout :可伸缩的机器学习工具 148
10.3.1 使用Mahout 进行文本分类 149
10.4 MLbase :分布式机器学习框架 152
10.5 总结 152
第6 部分 基于大规模数据集的统计分析 155
第11 章 使用R 语言处理大数据集 157
11.1 统计学为什么性感 158
11.1.1 R 处理大型数据集的局限性 159
11.1.2 R 的数据帧和矩阵 161
XXVI 目录
11.2 处理大数据集的策略 162
11.2.1 大矩阵处理:bigmemory 和biganalytics 162
11.2.2 ff: 使用大于内存的数据帧 164
11.2.3 biglm :大规模数据集的线性回归 165
11.2.4 RHadoop: 使用R 访问Apache Hadoop 166
11.3 总结 168
第12 章 使用Python 和Pandas 构建分析工作流 171
12.1 数据乐园中自在的蟒蛇――Python 172
12.1.1 为统计性计算选择一门语言 172
12.1.2 扩展现有代码 173
12.1.3 工具和测试 174
12.2 用于数据处理的Python 库 174
12.2.1 NumPy 175
12.2.2 SciPy :Python 的科学计算库 176
12.2.3 数据分析库Pandas 178
12.3 构建更复杂的工作流 182
12.3.1 处理损坏或丢失的记录 184
12.4 iPython :科学计算工具链的最后一环 185
12.4.1 在集群上并行执行iPython 186
12.5 总结 190
第7 部分 展望未来 191
第13 章 何时选择自制、购买或外包 193
13.1 功能重合的解决方案 193
13.2 理解你的数据问题 195
13.3 自制还是购买问题的参考手册 197
13.3.1 你已经对哪些技术有所投入 197
13.3.2 从小处着手 198
13.3.3 规划时考虑可扩展性 198
目录XXVII
13.4 私人数据中心 199
13.5 了解开源的成本 201
13.6 一切皆服务 202
13.7 总结 202
第14 章 未来:数据科技的几个趋势 205
14.1 Hadoop :搅局者与被搅局者 206
14.2 一切皆在云中 208
14.3 数据科学家的兴衰 209
14.4 融合:终极数据库 212
14.5 文化融合 213
14.6 总结 214
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
同类热门
类似软件
DataExplore数据恢复大师6.52M803人在用 DataExplore数据恢复大师是由上海数擎信息科技有限公司推出的一款功能强大的硬盘数据恢复软件。软件提供了较低层次恢复功能,只要硬盘数据没有被覆盖掉,文件就能找得到,支持FAT12/FAT16/FAT32/NTFS/EXT2文件系统,可以导出文
查看大数据时代生活工作与思维的大变革12.82M313人在用大数据时代生活工作与思维的大变革是由“大数据商业应用第一人”的维克托·迈尔·舍恩伯格先生编著,《科学》《自然》等著名学术期刊最推崇的互联网研究者之一,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。《大数据时代:生活、工
查看大数据管理:数据集成的技术、方法与最佳实践26.48M176人在用 大数据管理:数据集成的技术、方法与最佳实践是一本数据集成领域著作,由美国资深数据集成专家April Reeve编著,余水清,潘黎萍共同翻译。本书高屋建瓴地阐述了在大型组织的环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术
查看hadoop大数据分析与挖掘实战38.23M273人在用hadoop大数据分析与挖掘实战是一本Hadoop大数据分析实战书籍,由张良均,樊哲,赵云龙和李成华四人共同编著。本书以大家熟知的Hadoop技术来展开,理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标
查看热门标签
网友评论0人参与,0条评论
最新排行
不上班的23种活法pdf版6.47M 不上班的23种活法是一款介绍各种各样的自由职业的图书,作者唐华山,由北京出版社发行。全书为广大网友提供23种活法供参考,选取了自由职业中最具普遍意义的23个方向,并对其进行了具体分析和阐述,包括职业综述、必备素养、现身说法、经验分享、测试、相关链接
查看栏杆图集15j403-186.55Mpdf电子版栏杆图集15j403-1是中国建筑标准研究院编官写的一套国家建筑标准设计图集,全名也叫15j403-1楼梯栏杆图集,还俗称为15j4031栏杆免费图集,是根据住房和城乡建设部建质函[2015]140号文“关于印发《2015国家建筑标准设计编制工作计划》的
查看ASP.NET 3.5 揭秘(卷2)58.31MASP.NET 3.5 揭秘(卷2)是一本ASP.NET 3.5框架揭秘书籍,由美国程序员沃尔瑟(WaltherS)编著。本书为需要创建网站的专业程序员而写,是一本使用ASENET 3.5创建网站的十分全面的参考书,主要介绍了ASP.NET的安全性,缓存
查看php深度分析:101个核心技巧窍门和问题解决方法原书第2版48.46M沙菲克 pdf扫描版 php深度分析:101个核心技巧窍门和问题解决方法原书第2版是想要研究复杂PHP解决方案的PHP开发人员的必备伙伴,本书由德国PHP开发程序员BEN BALBO编著,周广辉、杨建军等翻译。全书首次汇集了定期发布在SitePoint论坛上的常见PHP
查看写给程序员的数据挖掘实践指南35.98Mpdf高清扫描版 写给程序员的数据挖掘实践指南是一本数据挖掘技术指导手册,由软件开发工程师Ron Zacharski编著,知名技术译者王斌老师译作。本书作者采用在实践中学的方式,提供了大量Python的代码和案例,同时还详细的介绍了如何应用数据挖掘技术。通过阅读本书
查看c和指针 pointers on c10.49M里科(Kenneth·Reek) pdf扫描版C和指针是一本C和C++领域的经典著作,由里科(Kenneth·Reek)编著。本书通过对指针的基础知识和高级特性的探讨,帮助程序员把指针的强大功能融入到自己的程序中去。全书共18章,覆盖了数据、语句、操作符和表达式、指针、函数、数组、字符串、结构和联合
查看高性能javascript37.21M尼古拉斯·泽卡斯pdf扫描版 高性能JavaScript是JavaScript语言领域的一本经典教材,由雅虎首页开发者尼古拉斯·泽卡斯编著。全书从性能角度分析JavaScript,不求面面俱到,但求字字如金。重点讨论了JavaScript的各个方面,内容涵盖运行时间、下载、do
查看程序员藏经阁:C#编程兵书195.92M张志强pdf扫描版 C#编程兵书是一本C语言设计开发手册,由张志强和胡军两人共同编著。本书内容丰富,全面介绍了C#语言基础,并以示例形式介绍了C#语言的编程技术和开发过程。从细节到整体,从内容编排到目录组织,本书都力求合理。在每一小节的内容编排上,首先给出清晰易懂的基
查看c语言从入门到精通(第1版)44.77Mpdf高清扫描版 C语言从入门到精通是由韩旭、王娣编写的一本非常适用于C语言初学者的学习书籍,清华大学出版社出版,书中除了对C语言的语法做了详细的介绍,还对一些高级应用,如:网络套接字编程,内存管理,数组指针,还做一些简单学生实验课程。 本书从初学者的角
查看windows内核安全编程从入门到实践pdf62.16M扫描版windows平台下的内核安全编程可能很多朋友都不是特别了解,因此小编特意带来了这款windows内核安全编程从入门到实践pdf,它详细的讲解了内核安全编程的所有知识。首先讲述了驱动编程的基本方法,然后介绍了Windows各个系统组件的工作原理、各个组件
查看