白话大数据与机器学习pdf版下载-白话大数据与机器学习电子书下载高清扫描版

详情
相关
评论

白话大数据与机器学习pdf版是资深大数据专家多年实战经验总结的一本书籍，由高扬，卫峥和尹会生三人共同编著。本书以降低学习曲线和阅读难度为宗旨，重点讲解了统计学、数据挖掘算法、实际应用案例、数据价值与变现，以及高级拓展技能，清晰勾勒出大数据技术路线与产业蓝图。

作者通过通俗易懂的语言，结合大量案例与漫画，将高度抽象的数学、算法与应用，与现实生活中的案例和事件一一做了关联，将源自生活的抽象还原出来，帮助读者理解后，又带领大家将这些抽象的规律与算法应用于实践，贴合读者需求，是系统学习大数据与机器学习的不二之选。

内容介绍

资深大数据专家多年实战经验总结，拒绝晦涩，开启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨，系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现，以及高级拓展技能，并清晰勾勒出大数据技术路线与产业蓝图。

《白话大数据与机器学习》共分18章。用通俗易懂的语言，结合大量案例与漫画，不枯燥，实用、接地气。

第1～5章，这部分是大数据入门所需的系统性知识，剖析大数据产业、数据与信息算法等的关系，妙解数学基础（排列组合、概率、统计与分布），以及指标化运营及体系构建。这部分补足读者的产业与相关概念认知，以及所需的数学知识。为下面的数据挖掘算法的理解与应用夯实基础。

第6～8章，这部分介绍数据挖掘基础知识与算法，讲解了与数据息息相关的信息论，重点讲解了：多维向量空间（向量和维度、矩阵及其计算、上卷和下钻）；

回归（线性回归、残差分析、拟合相关问题）；

聚类（K-Means算法、有趣模式、孤立点、层次与密度聚类，聚类的评估等）；

分类（朴素贝叶斯、决策树归纳、随机森林、隐马尔科夫模型、SVM、遗传算法）。

第11～18章，这部分介绍生产应用与高级扩展。其中第11～15章介绍生产应用实践，涵盖关联分析、用户画像、推荐算法、文本挖掘、人工神经网络。这些也是工业界和学术界研究的热点。第16章讲解了著名的大数据框架及其安装与配置，如Hadoop、Spark、Cassandra、PrestoDB。第17章从速度与稳定性维度介绍了大数据系统的架构与调优。第18章则从数据运营、评估、展现与变现场景层面进行了解读。

章节目录

第1章大数据产业1

1.1大数据产业现状1

1.2对大数据产业的理解2

1.3大数据人才3

1.3.1供需失衡3

1.3.2人才方向3

1.3.3环节和工具5

1.3.4门槛障碍6

1.4小结8

第2章步入数据之门9

2.1什么是数据9

2.2什么是信息10

2.3什么是算法12

2.4统计、概率和数据挖掘13

2.5什么是商业智能13

2.6小结14

第3章排列组合与古典概型15

3.1排列组合的概念16

3.1.1公平的决断——扔硬币16

3.1.2非古典概型17

3.2排列组合的应用示例18

3.2.1双色球18

3.2.2购车摇号20

3.2.3德州扑克21

3.3小结25

第4章统计与分布27

4.1加和值、平均值和标准差27

4.1.1加和值28

4.1.2平均值29

4.1.3标准差30

4.2加权均值32

4.2.1混合物定价32

4.2.2决策权衡34

4.3众数、中位数35

4.3.1众数36

4.3.2中位数37

4.4欧氏距离37

4.5曼哈顿距离39

4.6同比和环比41

4.7抽样43

4.8高斯分布45

4.9泊松分布49

4.10伯努利分布52

4.11小结54

第5章指标55

5.1什么是指标55

5.2指标化运营58

5.2.1指标的选择58

5.2.2指标体系的构建62

5.3小结63

第6章信息论64

6.1信息的定义64

6.2信息量65

6.2.1信息量的计算65

6.2.2信息量的理解66

6.3香农公式68

6.4熵70

6.4.1热力熵70

6.4.2信息熵72

6.5小结75

第7章多维向量空间76

7.1向量和维度76

7.1.1信息冗余77

7.1.2维度79

7.2矩阵和矩阵计算80

7.3数据立方体83

7.4上卷和下钻85

7.5小结86

第8章回归87

8.1线性回归87

8.2拟合88

8.3残差分析94

8.4过拟合99

8.5欠拟合100

8.6曲线拟合转化为线性拟合101

8.7小结104

第9章聚类105

9.1K-Means算法106

9.2有趣模式109

9.3孤立点110

9.4层次聚类110

9.5密度聚类113

9.6聚类评估116

9.6.1聚类趋势117

9.6.2簇数确定119

9.6.3测定聚类质量121

9.7小结124

第10章分类125

10.1朴素贝叶斯126

10.1.1天气的预测128

10.1.2疾病的预测130

10.1.3小结132

10.2决策树归纳133

10.2.1样本收集135

10.2.2信息增益136

10.2.3连续型变量137

10.3随机森林140

10.4隐马尔可夫模型141

10.4.1维特比算法144

10.4.2前向算法151

10.5支持向量机SVM154

10.5.1年龄和好坏154

10.5.2“下刀”不容易157

10.5.3距离有多远158

10.5.4N维度空间中的距离159

10.5.5超平面怎么画160

10.5.6分不开怎么办160

10.5.7示例163

10.5.8小结164

10.6遗传算法164

10.6.1进化过程164

10.6.2算法过程165

10.6.3背包问题165

10.6.4极大值问题173

10.7小结181

第11章关联分析183

11.1频繁模式和Apriori算法184

11.1.1频繁模式184

11.1.2支持度和置信度185

11.1.3经典的Apriori算法187

11.1.4求出所有频繁模式190

11.2关联分析与相关性分析192

11.3稀有模式和负模式193

11.4小结194

第12章用户画像195

12.1标签195

12.2画像的方法196

12.2.1结构化标签196

12.2.2非结构化标签198

12.3利用用户画像203

12.3.1割裂型用户画像203

12.3.2紧密型用户画像204

12.3.3到底“像不像”204

12.4小结205

第13章推荐算法206

13.1推荐思路206

13.1.1贝叶斯分类206

13.1.2利用搜索记录207

13.2User-basedCF209

13.3Item-basedCF211

13.4优化问题215

13.5小结217

第14章文本挖掘218

14.1文本挖掘的领域218

14.2文本分类219

14.2.1Rocchio算法220

14.2.2朴素贝叶斯算法223

14.2.3K-近邻算法225

14.2.4支持向量机SVM算法226

14.3小结227

第15章人工神经网络228

15.1人的神经网络228

15.1.1神经网络结构229

15.1.2结构模拟230

15.1.3训练与工作231

15.2FANN库简介233

15.3常见的神经网络235

15.4BP神经网络235

15.4.1结构和原理236

15.4.2训练过程237

15.4.3过程解释240

15.4.4示例240

15.5玻尔兹曼机244

15.5.1退火模型244

15.5.2玻尔兹曼机245

15.6卷积神经网络247

15.6.1卷积248

15.6.2图像识别249

15.7深度学习255

15.8小结256

第16章大数据框架简介257

16.1著名的大数据框架257

16.2Hadoop框架258

16.2.1MapReduce原理259

16.2.2安装Hadoop261

16.2.3经典的WordCount264

16.3Spark框架269

16.3.1安装Spark270

16.3.2使用Scala计算WordCount271

16.4分布式列存储框架272

16.5PrestoDB——神奇的CLI273

16.5.1Presto为什么那么快273

16.5.2安装Presto274

16.6小结277

第17章系统架构和调优278

17.1速度——资源的配置278

17.1.1思路一：逻辑层面的优化279

17.1.2思路二：容器层面的优化279

17.1.3思路三：存储结构层面的优化280

17.1.4思路四：环节层面的优化280

17.1.5资源不足281

17.2稳定——资源的可用282

17.2.1借助云服务282

17.2.2锁分散282

17.2.3排队283

17.2.4谨防“雪崩”283

17.3小结285

第18章数据解读与数据的价值286

18.1运营指标286

18.1.1互联网类型公司常用指标287

18.1.2注意事项288

18.2AB测试289

18.2.1网页测试290

18.2.2方案测试290

18.2.3灰度发布292

18.2.4注意事项293

18.3数据可视化295

18.3.1图表295

18.3.2表格299

18.4多维度——大数据的灵魂299

18.4.1多大算大299

18.4.2大数据网络300

18.4.3去中心化才能活跃301

18.4.4数据会过剩吗302

18.5数据变现的场景303

18.5.1数据价值的衡量的讨论303

18.5.2场景1：征信数据307

18.5.3场景2：宏观数据308

18.5.4场景3：画像数据309

18.6小结310

附录AVMwareWorkstation的安装311

附录BCentOS虚拟机的安装方法314

附录CPython语言简介318

附录DScikit-learn库简介323

附录EFANNforPython安装324

附录F群众眼中的大数据325

写作花絮327

参考文献329

使用说明

1、下载并解压，得出pdf文件

2、如果打不开本文件，请务必下载pdf阅读器

3、安装后，在打开解压得出的pdf文件

4、双击进行阅读

应用信息

语言简体中文

类似软件

大数据魔镜174.8M244人在用 大数据魔镜是国内首款免费的大数据可视化分析工具，由苏州国云数据科技有限公司研发，拥有中国最大的视觉效果库，超过500多种可视化效果，能够为企业提供全行业大数据解决方案。通过大数据魔镜，企业积累的各种来自内部和外部的数据，比如网站数据、销售数据、ER
查看
块数据大数据时代真正到来的标志51.74M194人在用 块数据是一本首次创新性提出“块数据”这一概念的大数据图书，由大数据战略重点实验室编著。本书从一个新颖的视角——块数据，来看待大数据及其未来的发展，颇有创意！“条数据”和“块数据”的划分，师法自然，抓住了数据的本质。本书源于贵阳市领导在推进大数据应用
查看
DataExplore数据恢复大师8.51M1089人在用 DataExplore数据恢复大师是由上海数擎信息科技有限公司推出的一款功能强大的硬盘数据恢复软件。软件提供了较低层次恢复功能，只要硬盘数据没有被覆盖掉，文件就能找得到，支持FAT12/FAT16/FAT32/NTFS/EXT2文件系统，可以导出文
查看
寻路大数据32.57M224人在用 寻路大数据是Google大数据专家迈克尔·马诺切里的最新力作，本书从大数据系统的成功应用开始介绍，之后陆续对 NoSQL、分布式计算和CAP 理论进行了讲解。在介绍使用 Hadoop 和 Hive 分析大数据之后，又覆盖了使用 BigQuery 进
查看
机器学习系统设计pdf34.12M435人在用一本图灵程序设计丛书
查看
大数据架构详解55.79M387人在用 大数据架构详解是一本大数据深度学习书籍，书本全名叫做大数据架构详解：从数据获取到深度学习，由华为大数据服务首席规划师朱洁和罗华霖两人共同编著。本书内容丰富翔实，主要围绕着一个通用技术栈来组织章节，主要聚焦大数据平台的一些知识。作者详细介绍了数据获取
查看
机器学习实践指南pdf58.57M287人在用机器学习实践指南:案例应用解析(第2版)是一本机器学习实践指南，由麦好编著。全书分为准备篇、基础篇、统计分析实战篇和机器学习实战篇。机器学习算法建立在复杂的计算理论基础之上，并涉及多门数学学科。作者在全收介绍机器学习的发展及应用前景
查看
驾驭大数据43.04M213人在用 驾驭大数据是一本教你如何拥有大数据意识和如何驾驭大数据的实用教材，由[美]bill franks著，黄海/车皓阳/王悦等翻译，人民邮电出版社出版。全书主要关注的是大数据的分析，它从数据讲起并进一步讲到如何制定决策，如何创建卓越的分析中心以及如何建立
查看
大数据时代生活工作与思维的大变革12.82M369人在用 大数据时代生活工作与思维的大变革是由“大数据商业应用第一人”的维克托·迈尔·舍恩伯格先生编著，《科学》《自然》等著名学术期刊最推崇的互联网研究者之一，拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。《
查看
大数据的互联网思维32.95M216人在用 大数据的互联网思维是作者以15年来大数据产品及运营实战经验而编著而来的一本大数据领域的专著，由段云峰和秦晓飞两人共同编著。本书对互联网思维中主要的几条原则，逐一进行分析，并将其应用到大数据发展中，给出了大数据产品设计的原则，并提出了改善客户体验的各
查看

慕课网电脑版44.27Mv8.8.0it编程教育学习培训必备软件
查看
智学网教师端电脑版150.69Mv1.17.2363让学习变得更简单！
查看
申学电脑版54.67Mv1.2.5官方版上海市中小学正版教材配套音频点读
查看
掌门好老师电脑版46.49Mv6.23.3老师教学辅助工具及交流平台
查看
AA期末评语生成器官方版53.98Mv4.7.1快速生成不同风格评语
查看
WXTT专业打字练习官方版2.13Mv3.2 WXTT专业打字练习是一款专业的打字练习工具，它包含了多种级别的练习模式，适合各个级别使用者练习，而且还能进行小键盘练习。键盘分布图让你熟练的运用键盘的每个位置，养成良好的打字习惯。同时成绩单记录能让你直观的看到自己的进步过程，让你能持续的坚持下去
查看
丹尼每日听力电脑版25.9Mv1.1.7和丹尼学英语听力，迈出学习第一步
查看
会计帮电脑版96.3Mv6.2.7.0会计职业考试学习备考利器
查看
鸿合微课工具57.29Mv8.3.0 鸿合微课工具是一款小巧便捷的教师录制课堂教学视频的辅助工具，为用户提供了一建录制视频、声音调节、设置视频源、调节录制区域、专业化视频帧数、只有编辑素材、码率调节等功能，当教师准备录制时单击微课工具中的开始软件即可开始录制，那么要是录制到一半是突然有
查看
硬笔书法米字格模板30Ka4纸字帖版 硬笔书法是书法艺术中一朵璀璨的奇葩，有携带方便、书写快捷、使用价值广等特点，书写工具包括钢笔、圆珠笔、蘸笔、铅笔、塑头笔、竹笔、木笔、铁笔等，以墨水为主要载体，来表现汉字书写技巧，给人以美的享受。这里小编为广大网友带来了硬笔书法米字格下载，又可以称
查看
讲课宝软件27.34Mv2.0.1官方版 讲课宝是专为讲师们设计的一款网络教学系统，简单易用，可以帮助轻松创建在线课堂，您只需要发送链接就可以邀请更多人参加课堂。讲课宝具有签到、上墙、投票、抽奖、答题等功能，全面的提升课堂的互动学习气氛，将课堂与互联网完美的进行结合，创造高效活跃的学习环境
查看
ASP.NET 3.5 揭秘(卷2)58.31M ASP.NET 3.5 揭秘（卷2）是一本ASP.NET 3.5框架揭秘书籍，由美国程序员沃尔瑟（WaltherS）编著。本书为需要创建网站的专业程序员而写，是一本使用ASENET 3.5创建网站的十分全面的参考书，主要介绍了ASP.NET的安全性
查看
android物联网开发细致入门与最佳实践66.04M李天祥pdf扫描版 android物联网开发细致入门与最佳实践是一本Android物联网开发入门书籍，由李天祥编著，本书内容几乎涵盖了Android物联网开发所需要的所有主要知识点，详细讲解了每一个典型物联网项目的实现过程和具体移植方法。为了使广大读者彻底弄清楚And
查看
HTML+CSS网页开发技术精解61.4M吴玉中pdf扫描版 HTML+CSS网页开发技术精解是一本html和css语言的开发书籍，由吴玉中等人共同编著。本书内容丰富翔实，涵盖了HTML和CSS大部分常用元素和属性。并且作者使用典型实例，用图解方式诠释每个语法的具体使用方法。还全面讲解CSS控制页面表现的方法
查看
linux程序设计第四版221.43M马修pdf扫描版linux程序设计第四版是Linux程序设计领域的经典名著，以简单易懂、内容全面和示例丰富而广受好评，由英国程序员Neil Matthew和Richard Stones共同编著。本书内容丰富翔实，主要通过一些交互性（基于屏幕）的例子来向读者介绍编写she
查看