大小:55.5M
更新时间:24-07-12
系统:Pc
白话大数据与机器学习pdf版是资深大数据专家多年实战经验总结的一本书籍,由高扬,卫峥和尹会生三人共同编著。本书以降低学习曲线和阅读难度为宗旨,重点讲解了统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,清晰勾勒出大数据技术路线与产业蓝图。
作者通过通俗易懂的语言,结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求,是系统学习大数据与机器学习的不二之选。
资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨,系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,并清晰勾勒出大数据技术路线与产业蓝图。
《白话大数据与机器学习》共分18章。用通俗易懂的语言,结合大量案例与漫画,不枯燥,实用、接地气。
第1~5章,这部分是大数据入门所需的系统性知识,剖析大数据产业、数据与信息算法等的关系,妙解数学基础(排列组合、概率、统计与分布),以及指标化运营及体系构建。这部分补足读者的产业与相关概念认知,以及所需的数学知识。为下面的数据挖掘算法的理解与应用夯实基础。
第6~8章,这部分介绍数据挖掘基础知识与算法,讲解了与数据息息相关的信息论,重点讲解了:多维向量空间(向量和维度、矩阵及其计算、上卷和下钻);
回归(线性回归、残差分析、拟合相关问题);
聚类(K-Means算法、有趣模式、孤立点、层次与密度聚类,聚类的评估等);
分类(朴素贝叶斯、决策树归纳、随机森林、隐马尔科夫模型、SVM、遗传算法)。
第11~18章,这部分介绍生产应用与高级扩展。其中第11~15章介绍生产应用实践,涵盖关联分析、用户画像、推荐算法、文本挖掘、人工神经网络。这些也是工业界和学术界研究的热点。第16章讲解了著名的大数据框架及其安装与配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章从速度与稳定性维度介绍了大数据系统的架构与调优。第18章则从数据运营、评估、展现与变现场景层面进行了解读。
第1章大数据产业1
1.1大数据产业现状1
1.2对大数据产业的理解2
1.3大数据人才3
1.3.1供需失衡3
1.3.2人才方向3
1.3.3环节和工具5
1.3.4门槛障碍6
1.4小结8
第2章步入数据之门9
2.1什么是数据9
2.2什么是信息10
2.3什么是算法12
2.4统计、概率和数据挖掘13
2.5什么是商业智能13
2.6小结14
第3章排列组合与古典概型15
3.1排列组合的概念16
3.1.1公平的决断——扔硬币16
3.1.2非古典概型17
3.2排列组合的应用示例18
3.2.1双色球18
3.2.2购车摇号20
3.2.3德州扑克21
3.3小结25
第4章统计与分布27
4.1加和值、平均值和标准差27
4.1.1加和值28
4.1.2平均值29
4.1.3标准差30
4.2加权均值32
4.2.1混合物定价32
4.2.2决策权衡34
4.3众数、中位数35
4.3.1众数36
4.3.2中位数37
4.4欧氏距离37
4.5曼哈顿距离39
4.6同比和环比41
4.7抽样43
4.8高斯分布45
4.9泊松分布49
4.10伯努利分布52
4.11小结54
第5章指标55
5.1什么是指标55
5.2指标化运营58
5.2.1指标的选择58
5.2.2指标体系的构建62
5.3小结63
第6章信息论64
6.1信息的定义64
6.2信息量65
6.2.1信息量的计算65
6.2.2信息量的理解66
6.3香农公式68
6.4熵70
6.4.1热力熵70
6.4.2信息熵72
6.5小结75
第7章多维向量空间76
7.1向量和维度76
7.1.1信息冗余77
7.1.2维度79
7.2矩阵和矩阵计算80
7.3数据立方体83
7.4上卷和下钻85
7.5小结86
第8章回归87
8.1线性回归87
8.2拟合88
8.3残差分析94
8.4过拟合99
8.5欠拟合100
8.6曲线拟合转化为线性拟合101
8.7小结104
第9章聚类105
9.1K-Means算法106
9.2有趣模式109
9.3孤立点110
9.4层次聚类110
9.5密度聚类113
9.6聚类评估116
9.6.1聚类趋势117
9.6.2簇数确定119
9.6.3测定聚类质量121
9.7小结124
第10章分类125
10.1朴素贝叶斯126
10.1.1天气的预测128
10.1.2疾病的预测130
10.1.3小结132
10.2决策树归纳133
10.2.1样本收集135
10.2.2信息增益136
10.2.3连续型变量137
10.3随机森林140
10.4隐马尔可夫模型141
10.4.1维特比算法144
10.4.2前向算法151
10.5支持向量机SVM154
10.5.1年龄和好坏154
10.5.2“下刀”不容易157
10.5.3距离有多远158
10.5.4N维度空间中的距离159
10.5.5超平面怎么画160
10.5.6分不开怎么办160
10.5.7示例163
10.5.8小结164
10.6遗传算法164
10.6.1进化过程164
10.6.2算法过程165
10.6.3背包问题165
10.6.4极大值问题173
10.7小结181
第11章关联分析183
11.1频繁模式和Apriori算法184
11.1.1频繁模式184
11.1.2支持度和置信度185
11.1.3经典的Apriori算法187
11.1.4求出所有频繁模式190
11.2关联分析与相关性分析192
11.3稀有模式和负模式193
11.4小结194
第12章用户画像195
12.1标签195
12.2画像的方法196
12.2.1结构化标签196
12.2.2非结构化标签198
12.3利用用户画像203
12.3.1割裂型用户画像203
12.3.2紧密型用户画像204
12.3.3到底“像不像”204
12.4小结205
第13章推荐算法206
13.1推荐思路206
13.1.1贝叶斯分类206
13.1.2利用搜索记录207
13.2User-basedCF209
13.3Item-basedCF211
13.4优化问题215
13.5小结217
第14章文本挖掘218
14.1文本挖掘的领域218
14.2文本分类219
14.2.1Rocchio算法220
14.2.2朴素贝叶斯算法223
14.2.3K-近邻算法225
14.2.4支持向量机SVM算法226
14.3小结227
第15章人工神经网络228
15.1人的神经网络228
15.1.1神经网络结构229
15.1.2结构模拟230
15.1.3训练与工作231
15.2FANN库简介233
15.3常见的神经网络235
15.4BP神经网络235
15.4.1结构和原理236
15.4.2训练过程237
15.4.3过程解释240
15.4.4示例240
15.5玻尔兹曼机244
15.5.1退火模型244
15.5.2玻尔兹曼机245
15.6卷积神经网络247
15.6.1卷积248
15.6.2图像识别249
15.7深度学习255
15.8小结256
第16章大数据框架简介257
16.1著名的大数据框架257
16.2Hadoop框架258
16.2.1MapReduce原理259
16.2.2安装Hadoop261
16.2.3经典的WordCount264
16.3Spark框架269
16.3.1安装Spark270
16.3.2使用Scala计算WordCount271
16.4分布式列存储框架272
16.5PrestoDB——神奇的CLI273
16.5.1Presto为什么那么快273
16.5.2安装Presto274
16.6小结277
第17章系统架构和调优278
17.1速度——资源的配置278
17.1.1思路一:逻辑层面的优化279
17.1.2思路二:容器层面的优化279
17.1.3思路三:存储结构层面的优化280
17.1.4思路四:环节层面的优化280
17.1.5资源不足281
17.2稳定——资源的可用282
17.2.1借助云服务282
17.2.2锁分散282
17.2.3排队283
17.2.4谨防“雪崩”283
17.3小结285
第18章数据解读与数据的价值286
18.1运营指标286
18.1.1互联网类型公司常用指标287
18.1.2注意事项288
18.2AB测试289
18.2.1网页测试290
18.2.2方案测试290
18.2.3灰度发布292
18.2.4注意事项293
18.3数据可视化295
18.3.1图表295
18.3.2表格299
18.4多维度——大数据的灵魂299
18.4.1多大算大299
18.4.2大数据网络300
18.4.3去中心化才能活跃301
18.4.4数据会过剩吗302
18.5数据变现的场景303
18.5.1数据价值的衡量的讨论303
18.5.2场景1:征信数据307
18.5.3场景2:宏观数据308
18.5.4场景3:画像数据309
18.6小结310
附录AVMwareWorkstation的安装311
附录BCentOS虚拟机的安装方法314
附录CPython语言简介318
附录DScikit-learn库简介323
附录EFANNforPython安装324
附录F群众眼中的大数据325
写作花絮327
参考文献329
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
同类热门
类似软件
机器学习实践指南pdf58.57M247人在用机器学习实践指南:案例应用解析(第2版)是一本机器学习实践指南,由麦好编著。全书分为准备篇、基础篇、 统计分析实战篇和机器学习实战篇。机器学习算法建立在复杂的计算理论基础之上,并涉及多门数学学科。作者在全收介绍机器学习的发展及应用前景,使读者产生浓厚的兴
查看DataExplore数据恢复大师5.42M751人在用DataExplore数据恢复大师是由上海数擎信息科技有限公司推出的一款功能强大的硬盘数据恢复软件。软件提供了较低层次恢复功能,只要硬盘数据没有被覆盖掉,文件就能找得到,支持FAT12/FAT16/FAT32/NTFS/EXT2文件系统,可以导出文件夹,
查看大数据时代生活工作与思维的大变革12.82M295人在用大数据时代生活工作与思维的大变革是由“大数据商业应用第一人”的维克托·迈尔·舍恩伯格先生编著,《科学》《自然》等著名学术期刊最推崇的互联网研究者之一,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。《大数据时代:生活、工
查看热门标签
网友评论0人参与,0条评论
最新排行
read2u(中文语音朗读软件)8.99Mv2.1官方版 read2u官方版是一款非常好用的中文语音朗读软件,也就是把电子读物变成有声读物的一种工具,不同于有些校对软件,read2u是专门为了朗读汉字而设计的,具有良好的音质,卓越的多音字识别系统,具有同音乐的完美结合,对于朗读的各项参数具有开放性,它支持
查看c# winform实践开发教程42.53M钱哨高清扫描版c# winform实践开发教程是一本基于.NET FrameWork2.0平台进行的C# Windows程序设计开发教材,由钱哨,李挥剑,李继哲 三人共同编著。全书内容衔接合理,采用了项目驱动方式,且完全按项目运作所需的知识体系设置结构来编写。以实际工
查看php与mysql程序设计(第3版)134.16M吉尔摩pdf扫描版php与mysql程序设计(第3版)是一本PHP、MySQL程序设计指导手册,由美国前端工程师吉尔摩编著。全书主题的选取和组织从实用出发,在讲述知识之外还加入了作者多年积累的宝贵实战经验,并提供了500多个可以直接用于实际项目的代码示例,充分体现了作者深
查看c和指针 pointers on c10.49M里科(Kenneth·Reek) pdf扫描版C和指针是一本C和C++领域的经典著作,由里科(Kenneth·Reek)编著。本书通过对指针的基础知识和高级特性的探讨,帮助程序员把指针的强大功能融入到自己的程序中去。全书共18章,覆盖了数据、语句、操作符和表达式、指针、函数、数组、字符串、结构和联合
查看欧姆龙plc cp1e中文手册1.94Mpdf版欧姆龙cp1e是新一代小型PLC,具有经济、易用、高效等特色,不仅可以通过CX-Programmer进行编程、设定及监控,还可以使用扩展单元增加模拟量I/O容量或温度输入(E30/40、N30/40/60或NA20 CPU单元)。本次小编就为大家带来欧姆
查看windows内核安全与驱动开发203.53M谭文 陈铭霖pdf扫描版windows内核安全与驱动开发是一本Windows客户端安全软件开发指导书籍,由谭文,陈铭霖编著,全书主要讲解的是Windows客户端安全软件开发相关的驱动程序开发,书中的程序使用环境从32位到64位,从Windows XP到Windows 8都有涉及
查看数字设计和计算机体系结构第二版89.96M戴维·莫尼·哈里斯 pdf扫描版数字设计和计算机体系结构第二版是一本将数字逻辑和计算机体系结构融合的书籍,由美国程序员戴维·莫尼·哈里斯编著。本书内容丰富翔实,其特色在于使用并列方式讲述SystemVerilog和VHDL,使读者可以快速地对比两种语言。第4章更是描述适用于这两种硬件描
查看sql server 2012实施与管理实战指南241.64Mpdf高清扫描版 sql server 2012实施与管理实战指南是目前学习的图书,作者:徐海蔚、朱桦、俞榕刚、王佳毅。小编已经将其制作成了pdf高清扫描版,可放在电脑上、手机上阅读。该书内容细而且全,对原理有着深刻的理解,用户即可以当作一部进阶学习的参考书籍,更深
查看新手学DIV+CSS商业网站布局从入门到精通(实战案例版)314.96M朱印宏pdf扫描版新手学DIV+CSS商业网站布局从入门到精通(实战案例版)是一本讲解商业网站的布局和美化的参考教学书籍,由朱印宏编著,中国铁道出版社出版。全书基于Dreamweaver和Photoshop常用软件,作者按照由浅到深的写作思路并且结合了多个典型网站实例,使
查看HotSpot实战(陈涛著)82M中文pdf扫描版想要学习HotSpot虚拟机应用技术,那就下载这款HotSpot实战pdf来学习吧,它是由著名HotSpot领域专家陈涛所著,书中主要讲解了HotSpot虚拟机的工作原理,编译和调试HotSpot的方法、HotSpot内核结构、Launcher、OOP-
查看