寻路大数据pdf下载马诺切里高清扫描版

详情
相关
评论

寻路大数据是Google大数据专家迈克尔·马诺切里的最新力作，本书从大数据系统的成功应用开始介绍，之后陆续对 NoSQL、分布式计算和CAP 理论进行了讲解。在介绍使用 Hadoop 和 Hive 分析大数据之后，又覆盖了使用 BigQuery 进行实时分析的相关内容。之后还包括了 MapReduce 流水线、Pig 和Cascading、使用 Mahout 进行机器学习等高级课题。

在书的结尾，读者会看到将Python 和 R 整合到大数据工具链中的实际案例。寻路大数据大部分章节都包含了很多例子以帮助读者学习和使用相关的大数据工具。如果你想要一本对大数据分析有一个全面了解的书籍，本书绝对是不二之选。

寻路大数据

内容介绍

《寻路大数据》作者结合自己在Google 大数据平台工作的丰富经验，阐述了数据技术的方方面面。从数据收集、共享到数据存储，从分布式数据平台、分析型数据库到数据可视化，从数据工作流构建到大规模数据分析，作者不仅进行了全面而深入的介绍，更覆盖了目前流行的各种数据技术与工具，同时对技术选型提出了指导性的建议。最后，作者对数据挑战的非技术因素进行了深刻的分析，并对数据技术的发展趋势进行了展望，引人深思。本书对企业管理者、技术经理、数据分析师、数据应用开发人员和相关从业者都有很好的参考价值。决策者可以从中看到技术趋势，把握时代发展脉搏；数据分析人员可以看到经验的总结和工具的应用；其他从业者可以从中了解数据技术所涉及的各个方面。

章节目录

第1 部分大数据时代指引 1

第1 章数据成功四原则 3

1．1 当数据成为一件“大”事 3

1．2 数据和单台服务器 4

1．3 大数据的权衡 5

1．3．1 构建可（限）扩展的解决方案 6

1．3．2 构建可（在互联网上）共享数据的系统 7

1．3．3 构建解决方案，而非基础设施 8

1．3．4 关注从数据中解放价值 8

1．4 大数据流水线剖析 9

1．5 终极数据库 10

1．6 总结 10

第2 部分收集和共享海量数据 13

第2 章托管和共享TB 级原始数据 15

2．1 文件之殇 16

2．1．1 共享大量文件的挑战 16

2．2 存储：基础设施即服务 17

2．2．1 网络很慢 18

2．3 选择合适的数据格式 18

2．3．1 XML ：数据，描述你自己 20

2．3．2 JSON ：程序员的选择 21

2．4 字符编码 22

2．4．1 文件转换 24

XXII 目录

2．5 移动中的数据：数据序列化格式 25

2．5．1 Apache Thrift 和Protocol Buffers 26

2．6 总结 27

第3 章构建基于NoSQL 的Web 应用采集众包数据 29

3．1 关系型数据库：命令及控制 30

3．1．1 关系数据库的ACID 测试 32

3．2 当关系型数据库遇上互联网 33

3．2．1 CAP 原理与BASE 34

3．3 非关系型数据库的模式 36

3．3．1 键- 值数据库 36

3．3．2 文档存储 38

3．4 为写入性能优化：Redis 40

3．5 在多个Redis 实例上分片 43

3．5．1 使用Twemproxy 自动分区 44

3．5．2 Redis 的替代选项 46

3．6 NewSQL ：Codd 归来 46

3．7 总结 47

第4 章解决数据孤岛问题的策略 49

4．1 堆满术语的仓库 49

4．1．1 实践中的问题 51

4．1．2 数据合规与安全规划 52

4．1．3 走进数据仓库 53

4．1．4 数据仓库的口诀：抽取、转换和加载 54

4．2 Hadoop ：数据仓库中的大象 55

4．3 数据孤岛也可能是个优点 55

4．3．1 专注于数据问题，而不是技术 56

4．3．2 鼓励员工提出他们自己的问题 57

4．3．3 投资沟通数据孤岛的技术 57

4．4 融合：数据孤岛的终结 58

目录XXIII

4．4．1 Luhn 的商业智能系统是否能成为现实 59

4．5 总结 59

第3 部分数据探究 61

第5 章使用Hadoop、Hive 和Shark 探索大规模数据集 63

5．1 什么是数据仓库 64

5．2 Apache Hive ：在Hadoop 上进行交互式查询 66

5．2．1 Hive 用例 66

5．2．2 Hive 实战 67

5．2．3 在Hive 中使用其他数据源 71

5．3 Shark ：以内存的速度进行查询 72

5．4 云中的数据仓库 73

5．5 总结 74

第6 章使用Google BigQuery 构建数据信息中心 77

6．1 分析型数据库 78

6．2 Dremel ：均贫富 79

6．2．1 Dremel 与MapReduce 的不同之处 80

6．3 BigQuery ：数据分析即服务 81

6．3．1 BigQuery 的查询语言 82

6．4 建造自己的大数据信息面板 83

6．4．1 授权访问BigQuery API 84

6．4．2 运行查询并获取结果 87

6．4．3 缓存查询结果 88

6．4．4 添加可视化图形 89

6．5 分析型查询引擎的未来 91

6．6 总结 91

第7 章探索大数据的可视化策略 93

7．1 警世良言：将数据翻译成故事 94

7．2 人类尺度 VS 机器尺度 97

XXIV 目录

7．2．1 交互性 97

7．3 开发交互式数据应用 98

7．3．1 使用R 和ggplot2 实现交互式可视化 98

7．3．2 matplotlib： Python 的2D 图形库 100

7．3．3 D3．js ：用于Web 的交互式可视化库 100

7．4 总结 104

第4 部分构建数据流水线 107

第8 章整合：MapReduce 数据流水线 109

8．1 数据流水线是什么 109

8．1．1 正确的工具 110

8．2 使用Hadoop Streaming 搭建数据流水线 111

8．2．1 MapReduce 和数据转换 111

8．2．2 最简单的流水线：stdin 到stdout 113

8．3 单步MapReduce 变换 115

8．3．1 从原始NVSS 数据中抽取相关信息：map 阶段 116

8．3．2 合计每月出生数：reducer 阶段 117

8．3．3 在本地测试MapReduce 流水线 118

8．3．4 在Hadoop 集群上运行我们的MapReduce 作业 119

8．4 降低复杂性：Hadoop 上Python 的MapReduce 框架 120

8．4．1 使用mrjob 重写Hadoop Streaming 示例 121

8．4．2 建造一个多步流水线 122

8．4．3 在Elastic MapReduce 上运行mrjob 脚本 124

8．4．4 其他基于Python 的MapReduce 框架 125

8．5 总结 125

第9 章使用Pig 和Cascading 构建数据转换工作流 127

9．1 大规模数据工作流实战 128

9．2 多步MapReduce 转换真复杂 128

9．2．1 Apache Pig ：拒绝复杂 129

目录XXV

9．2．2 使用交互式Grunt shell 运行Pig 130

9．2．3 过滤和优化数据工作流 132

9．2．4 以批处理模式运行Pig 脚本 132

9．3 Cascading ：构建健壮的数据工作流应用 133

9．3．1 以source 和sink 的方式思考 134

9．3．2 构建Cascading 应用 135

9．3．3 创建一个Cascade ：一个简单的JOIN 例子 136

9．3．4 在Hadoop 集群上部署Cascading 应用 138

9．4 何时选择Pig 或Cascading 139

9．5 总结 140

第5 部分基于大规模数据集的机器学习 141

第10 章使用Mahout 构建数据分类系统 143

10．1 机器能否预测未来 144

10．2 机器学习的挑战 144

10．2．1 贝叶斯分类 146

10．2．2 聚类 146

10．2．3 推荐引擎 148

10．3 Apache Mahout ：可伸缩的机器学习工具 148

10．3．1 使用Mahout 进行文本分类 149

10．4 MLbase ：分布式机器学习框架 152

10．5 总结 152

第6 部分基于大规模数据集的统计分析 155

第11 章使用R 语言处理大数据集 157

11．1 统计学为什么性感 158

11．1．1 R 处理大型数据集的局限性 159

11．1．2 R 的数据帧和矩阵 161

XXVI 目录

11．2 处理大数据集的策略 162

11．2．1 大矩阵处理：bigmemory 和biganalytics 162

11．2．2 ff：使用大于内存的数据帧 164

11．2．3 biglm ：大规模数据集的线性回归 165

11．2．4 RHadoop：使用R 访问Apache Hadoop 166

11．3 总结 168

第12 章使用Python 和Pandas 构建分析工作流 171

12．1 数据乐园中自在的蟒蛇――Python 172

12．1．1 为统计性计算选择一门语言 172

12．1．2 扩展现有代码 173

12．1．3 工具和测试 174

12．2 用于数据处理的Python 库 174

12．2．1 NumPy 175

12．2．2 SciPy ：Python 的科学计算库 176

12．2．3 数据分析库Pandas 178

12．3 构建更复杂的工作流 182

12．3．1 处理损坏或丢失的记录 184

12．4 iPython ：科学计算工具链的最后一环 185

12．4．1 在集群上并行执行iPython 186

12．5 总结 190

第7 部分展望未来 191

第13 章何时选择自制、购买或外包 193

13．1 功能重合的解决方案 193

13．2 理解你的数据问题 195

13．3 自制还是购买问题的参考手册 197

13．3．1 你已经对哪些技术有所投入 197

13．3．2 从小处着手 198

13．3．3 规划时考虑可扩展性 198

目录XXVII

13．4 私人数据中心 199

13．5 了解开源的成本 201

13．6 一切皆服务 202

13．7 总结 202

第14 章未来：数据科技的几个趋势 205

14．1 Hadoop ：搅局者与被搅局者 206

14．2 一切皆在云中 208

14．3 数据科学家的兴衰 209

14．4 融合：终极数据库 212

14．5 文化融合 213

14．6 总结 214

使用说明

1、下载并解压，得出pdf文件

2、如果打不开本文件，请务必下载PDF阅读器

3、安装后，在打开解压得出的pdf文件

4、双击进行阅读

应用信息

语言简体中文

类似软件

DataExplore数据恢复大师8.51M1089人在用 DataExplore数据恢复大师是由上海数擎信息科技有限公司推出的一款功能强大的硬盘数据恢复软件。软件提供了较低层次恢复功能，只要硬盘数据没有被覆盖掉，文件就能找得到，支持FAT12/FAT16/FAT32/NTFS/EXT2文件系统，可以导出文
查看
hadoop大数据分析与挖掘实战38.23M318人在用hadoop大数据分析与挖掘实战是一本Hadoop大数据分析实战书籍，由张良均，樊哲，赵云龙和李成华四人共同编著。本书以大家熟知的Hadoop技术来展开，理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标
查看
驾驭大数据43.04M213人在用 驾驭大数据是一本教你如何拥有大数据意识和如何驾驭大数据的实用教材，由[美]bill franks著，黄海/车皓阳/王悦等翻译，人民邮电出版社出版。全书主要关注的是大数据的分析，它从数据讲起并进一步讲到如何制定决策，如何创建卓越的分析中心以及如何建立
查看
大数据时代生活工作与思维的大变革12.82M369人在用 大数据时代生活工作与思维的大变革是由“大数据商业应用第一人”的维克托·迈尔·舍恩伯格先生编著，《科学》《自然》等著名学术期刊最推崇的互联网研究者之一，拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。《
查看
白话大数据与机器学习pdf版55.5M988人在用介绍大数据与机器学习的电子书
查看
大数据架构详解55.79M387人在用 大数据架构详解是一本大数据深度学习书籍，书本全名叫做大数据架构详解：从数据获取到深度学习，由华为大数据服务首席规划师朱洁和罗华霖两人共同编著。本书内容丰富翔实，主要围绕着一个通用技术栈来组织章节，主要聚焦大数据平台的一些知识。作者详细介绍了数据获取
查看
大数据魔镜174.8M244人在用 大数据魔镜是国内首款免费的大数据可视化分析工具，由苏州国云数据科技有限公司研发，拥有中国最大的视觉效果库，超过500多种可视化效果，能够为企业提供全行业大数据解决方案。通过大数据魔镜，企业积累的各种来自内部和外部的数据，比如网站数据、销售数据、ER
查看
块数据大数据时代真正到来的标志51.74M194人在用 块数据是一本首次创新性提出“块数据”这一概念的大数据图书，由大数据战略重点实验室编著。本书从一个新颖的视角——块数据，来看待大数据及其未来的发展，颇有创意！“条数据”和“块数据”的划分，师法自然，抓住了数据的本质。本书源于贵阳市领导在推进大数据应用
查看
大数据的互联网思维32.95M216人在用 大数据的互联网思维是作者以15年来大数据产品及运营实战经验而编著而来的一本大数据领域的专著，由段云峰和秦晓飞两人共同编著。本书对互联网思维中主要的几条原则，逐一进行分析，并将其应用到大数据发展中，给出了大数据产品设计的原则，并提出了改善客户体验的各
查看

四维排课软件免费版16.77Mv4.23.1.2649为学校提供最佳的排课体验
查看
嗨学课堂电脑版304.74Mv6.2.27职业考试必过神器
查看
畅言智慧课堂师生版457.75Mv5.7.6.3让教学变得更加简单
查看
武汉教育云互动课堂274.28Mv3.1.3适用于教师授课使用
查看
磨题帮电脑版28.93Mv1.2.163一个制作、发布及分享试卷的平台
查看
大口啃英语54.73Mv5.04绿色版轻轻松松背单词
查看
小闲智慧教育助手152.57Mv3.0.51唯因材施教，愿教学相长
查看
算法导论第三版中文版65.02M 算法导论第三版中文版是一本被广泛认为对所有从事IT行业人员必读的经典好书，全书共八部分，内容涵盖基础知识、排序和顺序统计量、数据结构、高级设计和分析技术、高级数据结构、图算法、算法问题选编、以及数学基础知识，书中不仅对每一个算法进行了详尽的说明，还
查看
湛江云学考电脑版108.24Mv1.3.0.1340优质、高效、全方位的考试服务
查看
动画学音标5.99Mv1.00.1绿色版 不知道为什么自己的英语口语那么差？那么八九不离十是你的音标没学好，小编推荐你试试动画学音标，这是一款绿色小巧，完全免费的英语音标学习软件，提供了单元音、双元音、辅音等总四十八个音标学习，并每个音标都附带相对应的flash动画教学，因此趣味性十足，也
查看
石开kk教育平台64.4Mv2.45 石开kk是石开公司推出的统一教育服务平台，可以支持网站、应用程序、各类组件的无缝接入，可以支持平台的二次开发，具备绿色、防低俗、防广告、自动拦截、统一认证、可控第三方上网行为的特点，能够为家庭孩子上网、学校教育、培训机构等提供统一入口平台。
查看
汽车驾驶模拟器游戏电脑版648.64Mv2015.2.13官方版现在随着车辆的普及，越来越多的人选择考取驾照来充实自己，但是很多人平时都没有时间学习或者说去驾校开车。今天小编就给大家推荐一款专业的学车类软件：汽车驾驶模拟器软件电脑版，该软件能够模拟科二和科三真实驾驶环境，适用于准备学车的学员以及正在学车的学员。软件有
查看
网页配色实用手册32.11M高清扫描版 网页配色实用手册是一本非常实用的网页配色实践指南，由温鑫工作室编著。本书内含近1000套大量国内外优秀网页设计作品，分析配色技巧与版式设计方法对基本色调、色相配色、意向配色等进行配色分析，培养色彩感觉详解美妆、娱乐、艺术欣赏、健身等10大类网站设计
查看
OraclePL/SQL实例精解(原书第4版)71.86M罗森维格pdf扫描版 OraclePL/SQL实例精解(原书第4版)是一本OraclePL和MYSQL数据库实例精解书籍，由美国程序员罗森维格编著。本书是一本集中式的解决方案范例教程，使用真实场景的试验，大量范例，练习来介绍所需的所有Oracle PL/SQL技能。全书
查看
Hadoop海量数据处理:技术详解与项目实战47.54M范东来pdf扫描版Hadoop海量数据处理：技术详解与项目实战是一本Hadoop数据处理技术指导手册，由范东来编著。本书主要介绍Hadoop技术的相关知识，不但详细介绍了Hadoop、MapReduce、HDFS、Hive和Sqoop，还深入探讨了Hadoop的运维和调优
查看