白话大数据与机器学习pdf版

    白话大数据与机器学习pdf版

    大小:55.5M

    更新时间:24-07-12

    系统:Pc

    开始下载

    白话大数据与机器学习pdf版是资深大数据专家多年实战经验总结的一本书籍,由高扬,卫峥和尹会生三人共同编著。本书以降低学习曲线和阅读难度为宗旨,重点讲解了统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,清晰勾勒出大数据技术路线与产业蓝图。

    作者通过通俗易懂的语言,结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求,是系统学习大数据与机器学习的不二之选。

    内容介绍

    资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨,系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,并清晰勾勒出大数据技术路线与产业蓝图。

    《白话大数据与机器学习》共分18章。用通俗易懂的语言,结合大量案例与漫画,不枯燥,实用、接地气。

    第1~5章,这部分是大数据入门所需的系统性知识,剖析大数据产业、数据与信息算法等的关系,妙解数学基础(排列组合、概率、统计与分布),以及指标化运营及体系构建。这部分补足读者的产业与相关概念认知,以及所需的数学知识。为下面的数据挖掘算法的理解与应用夯实基础。

    第6~8章,这部分介绍数据挖掘基础知识与算法,讲解了与数据息息相关的信息论,重点讲解了:多维向量空间(向量和维度、矩阵及其计算、上卷和下钻);

    回归(线性回归、残差分析、拟合相关问题);

    聚类(K-Means算法、有趣模式、孤立点、层次与密度聚类,聚类的评估等);

    分类(朴素贝叶斯、决策树归纳、随机森林、隐马尔科夫模型、SVM、遗传算法)。

    第11~18章,这部分介绍生产应用与高级扩展。其中第11~15章介绍生产应用实践,涵盖关联分析、用户画像、推荐算法、文本挖掘、人工神经网络。这些也是工业界和学术界研究的热点。第16章讲解了著名的大数据框架及其安装与配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章从速度与稳定性维度介绍了大数据系统的架构与调优。第18章则从数据运营、评估、展现与变现场景层面进行了解读。

    章节目录

    第1章大数据产业1

    1.1大数据产业现状1

    1.2对大数据产业的理解2

    1.3大数据人才3

    1.3.1供需失衡3

    1.3.2人才方向3

    1.3.3环节和工具5

    1.3.4门槛障碍6

    1.4小结8

    第2章步入数据之门9

    2.1什么是数据9

    2.2什么是信息10

    2.3什么是算法12

    2.4统计、概率和数据挖掘13

    2.5什么是商业智能13

    2.6小结14

    第3章排列组合与古典概型15

    3.1排列组合的概念16

    3.1.1公平的决断——扔硬币16

    3.1.2非古典概型17

    3.2排列组合的应用示例18

    3.2.1双色球18

    3.2.2购车摇号20

    3.2.3德州扑克21

    3.3小结25

    第4章统计与分布27

    4.1加和值、平均值和标准差27

    4.1.1加和值28

    4.1.2平均值29

    4.1.3标准差30

    4.2加权均值32

    4.2.1混合物定价32

    4.2.2决策权衡34

    4.3众数、中位数35

    4.3.1众数36

    4.3.2中位数37

    4.4欧氏距离37

    4.5曼哈顿距离39

    4.6同比和环比41

    4.7抽样43

    4.8高斯分布45

    4.9泊松分布49

    4.10伯努利分布52

    4.11小结54

    第5章指标55

    5.1什么是指标55

    5.2指标化运营58

    5.2.1指标的选择58

    5.2.2指标体系的构建62

    5.3小结63

    第6章信息论64

    6.1信息的定义64

    6.2信息量65

    6.2.1信息量的计算65

    6.2.2信息量的理解66

    6.3香农公式68

    6.4熵70

    6.4.1热力熵70

    6.4.2信息熵72

    6.5小结75

    第7章多维向量空间76

    7.1向量和维度76

    7.1.1信息冗余77

    7.1.2维度79

    7.2矩阵和矩阵计算80

    7.3数据立方体83

    7.4上卷和下钻85

    7.5小结86

    第8章回归87

    8.1线性回归87

    8.2拟合88

    8.3残差分析94

    8.4过拟合99

    8.5欠拟合100

    8.6曲线拟合转化为线性拟合101

    8.7小结104

    第9章聚类105

    9.1K-Means算法106

    9.2有趣模式109

    9.3孤立点110

    9.4层次聚类110

    9.5密度聚类113

    9.6聚类评估116

    9.6.1聚类趋势117

    9.6.2簇数确定119

    9.6.3测定聚类质量121

    9.7小结124

    第10章分类125

    10.1朴素贝叶斯126

    10.1.1天气的预测128

    10.1.2疾病的预测130

    10.1.3小结132

    10.2决策树归纳133

    10.2.1样本收集135

    10.2.2信息增益136

    10.2.3连续型变量137

    10.3随机森林140

    10.4隐马尔可夫模型141

    10.4.1维特比算法144

    10.4.2前向算法151

    10.5支持向量机SVM154

    10.5.1年龄和好坏154

    10.5.2“下刀”不容易157

    10.5.3距离有多远158

    10.5.4N维度空间中的距离159

    10.5.5超平面怎么画160

    10.5.6分不开怎么办160

    10.5.7示例163

    10.5.8小结164

    10.6遗传算法164

    10.6.1进化过程164

    10.6.2算法过程165

    10.6.3背包问题165

    10.6.4极大值问题173

    10.7小结181

    第11章关联分析183

    11.1频繁模式和Apriori算法184

    11.1.1频繁模式184

    11.1.2支持度和置信度185

    11.1.3经典的Apriori算法187

    11.1.4求出所有频繁模式190

    11.2关联分析与相关性分析192

    11.3稀有模式和负模式193

    11.4小结194

    第12章用户画像195

    12.1标签195

    12.2画像的方法196

    12.2.1结构化标签196

    12.2.2非结构化标签198

    12.3利用用户画像203

    12.3.1割裂型用户画像203

    12.3.2紧密型用户画像204

    12.3.3到底“像不像”204

    12.4小结205

    第13章推荐算法206

    13.1推荐思路206

    13.1.1贝叶斯分类206

    13.1.2利用搜索记录207

    13.2User-basedCF209

    13.3Item-basedCF211

    13.4优化问题215

    13.5小结217

    第14章文本挖掘218

    14.1文本挖掘的领域218

    14.2文本分类219

    14.2.1Rocchio算法220

    14.2.2朴素贝叶斯算法223

    14.2.3K-近邻算法225

    14.2.4支持向量机SVM算法226

    14.3小结227

    第15章人工神经网络228

    15.1人的神经网络228

    15.1.1神经网络结构229

    15.1.2结构模拟230

    15.1.3训练与工作231

    15.2FANN库简介233

    15.3常见的神经网络235

    15.4BP神经网络235

    15.4.1结构和原理236

    15.4.2训练过程237

    15.4.3过程解释240

    15.4.4示例240

    15.5玻尔兹曼机244

    15.5.1退火模型244

    15.5.2玻尔兹曼机245

    15.6卷积神经网络247

    15.6.1卷积248

    15.6.2图像识别249

    15.7深度学习255

    15.8小结256

    第16章大数据框架简介257

    16.1著名的大数据框架257

    16.2Hadoop框架258

    16.2.1MapReduce原理259

    16.2.2安装Hadoop261

    16.2.3经典的WordCount264

    16.3Spark框架269

    16.3.1安装Spark270

    16.3.2使用Scala计算WordCount271

    16.4分布式列存储框架272

    16.5PrestoDB——神奇的CLI273

    16.5.1Presto为什么那么快273

    16.5.2安装Presto274

    16.6小结277

    第17章系统架构和调优278

    17.1速度——资源的配置278

    17.1.1思路一:逻辑层面的优化279

    17.1.2思路二:容器层面的优化279

    17.1.3思路三:存储结构层面的优化280

    17.1.4思路四:环节层面的优化280

    17.1.5资源不足281

    17.2稳定——资源的可用282

    17.2.1借助云服务282

    17.2.2锁分散282

    17.2.3排队283

    17.2.4谨防“雪崩”283

    17.3小结285

    第18章数据解读与数据的价值286

    18.1运营指标286

    18.1.1互联网类型公司常用指标287

    18.1.2注意事项288

    18.2AB测试289

    18.2.1网页测试290

    18.2.2方案测试290

    18.2.3灰度发布292

    18.2.4注意事项293

    18.3数据可视化295

    18.3.1图表295

    18.3.2表格299

    18.4多维度——大数据的灵魂299

    18.4.1多大算大299

    18.4.2大数据网络300

    18.4.3去中心化才能活跃301

    18.4.4数据会过剩吗302

    18.5数据变现的场景303

    18.5.1数据价值的衡量的讨论303

    18.5.2场景1:征信数据307

    18.5.3场景2:宏观数据308

    18.5.4场景3:画像数据309

    18.6小结310

    附录AVMwareWorkstation的安装311

    附录BCentOS虚拟机的安装方法314

    附录CPython语言简介318

    附录DScikit-learn库简介323

    附录EFANNforPython安装324

    附录F群众眼中的大数据325

    写作花絮327

    参考文献329

    使用说明

    1、下载并解压,得出pdf文件

    2、如果打不开本文件,请务必下载pdf阅读器

    3、安装后,在打开解压得出的pdf文件

    4、双击进行阅读

    语言简体中文

    精品推荐

    同类热门

    南方Plus电脑版南方Plus电脑版 网易新闻电脑版网易新闻电脑版 cnki全球学术快报电脑版cnki全球学术快报电脑版 网易云阅读电脑版网易云阅读电脑版 京东读书电脑版京东读书电脑版 吉利博瑞用户手册吉利博瑞用户手册 本草纲目本草纲目 docker入门实战docker入门实战

    类似软件

    热门标签

    电脑音乐播放器软件大全 租赁合同范本免费样本电子版 系统封装工具大全 ps滤镜插件大全 多媒体课件制作软件 电脑报税软件大全 eclipse插件大全 电脑表格制作软件大全 电脑温度监控软件 电脑上学外语的软件大全 android开发工具 oppo sans字体大全

    网友评论0人参与,0条评论

    最新排行

    手游排行软件排行热门应用