python数据挖掘入门与实践

python数据挖掘入门与实践

大小:8.03M

更新时间:23-08-23

系统:Pc

版本:v

开始下载

python数据挖掘入门与实践是一本Python入门数据挖掘技术指南,由澳大利亚计算机科学博士罗伯特·莱顿(RobertLayton)编著。本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法,全面释放python的数据分析能力,常握大数据时代核心技术,让用户可以轻松入门挖掘技术并将其应用于实际项目。通过本书,读者将迈入数据挖掘的殿堂,透彻理解数据挖掘基础知识,掌握解决数据挖掘实际问题的杰出实践。

内容介绍

《python数据挖掘入门与实践》作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。

《python数据挖掘入门与实践》主要内容

第1章 开始数据挖掘之旅,介绍我们即将用到的技术,接着通过讲解两个基础算法的实现方法达到热身目的。

第2章 用scikit-learn估计器分类,涵盖了数据挖掘的一个重要主题——分类。这一章还会介绍将数据挖掘流程标准化的流水线结构,便于你管理实验流程。

第3章 用决策树预测获胜球队,介绍决策树和随机森林两个新算法。我们将通过抽取区分度高的特征来预测获胜选手。

第4章 用亲和性分析方法推荐电影,思考根据以往消费记录推荐产品的问题,介绍Apriori算法。

第5章 用转换器抽取特征,介绍不同类别特征的抽取方法及不同数据集的处理方法。

第6章 使用朴素贝叶斯进行社会媒体挖掘,使用朴素贝叶斯算法自动分析来自社交网站文本信息。

第7章 用图挖掘找到感兴趣的人,采用聚类和网络分析方法,发现社会媒体上感兴趣的人。

第8章 用神经网络破解验证码,从图像中抽取信息,然后训练神经网络,用来发现图像中的单词和字母。

第9章 作者归属问题,通过抽取文本特征,使用支持向量机算法,找出文档的作者。

第10章 新闻语料分类,使用k-means聚类算法,根据新闻文章内容进行分类。

第11章 用深度学习方法为图像中的物体进行分类,采用深度神经网络算法确定图像中的物体。

第12章 大数据处理,探讨对大数据进行数据挖掘的流程及方法。

附录 依次介绍各章的参考资料,便于读者深入了解各章内容。

章节目录

第1章 开始数据挖掘之旅 1
1.1 数据挖掘简介 1
1.2 使用Python 和IPython Notebook 2
1.2.1 安装Python 2
1.2.2 安装IPython 4
1.2.3 安装scikit-learn 库 5
1.3 亲和性分析示例 5
1.3.1 什么是亲和性分析 5
1.3.2 商品推荐 6
1.3.3 在NumPy 中加载数据集 6
1.3.4 实现简单的排序规则 8
1.3.5 排序找出最佳规则 10
1.4 分类问题的简单示例 12
1.5 什么是分类 12
1.5.1 准备数据集 13
1.5.2 实现OneR 算法 14
1.5.3 测试算法 16
1.6 小结 18
第2章 用scikit-learn 估计器分类 19
2.1 scikit-learn 估计器 19
2.1.1 近邻算法 20
2.1.2 距离度量 20
2.1.3 加载数据集 22
2.1.4 努力实现流程标准化 24
2.1.5 运行算法 24
2.1.6 设置参数 25
2.2 流水线在预处理中的应用 27
2.2.1 预处理示例 28
2.2.2 标准预处理 28
2.2.3 组装起来 29
2.3 流水线 29
2.4 小结 30
第3章 用决策树预测获胜球队 31
3.1 加载数据集 31
3.1.1 采集数据 31
3.1.2 用pandas 加载数据集 32
3.1.3 数据集清洗 33
3.1.4 提取新特征 34
3.2 决策树 35
3.2.1 决策树中的参数 36
3.2.2 使用决策树 37
3.3 NBA 比赛结果预测 37
3.4 随机森林 41
3.4.1 决策树的集成效果如何 42
3.4.2 随机森林算法的参数 42
3.4.3 使用随机森林算法 43
3.4.4 创建新特征 44
3.5 小结 45
第4章 用亲和性分析方法推荐电影 46
4.1 亲和性分析 46
4.1.1 亲和性分析算法 47
4.1.2 选择参数 47
4.2 电影推荐问题 48
4.2.1 获取数据集 48
4.2.2 用pandas 加载数据 49
4.2.3 稀疏数据格式 49
4.3 Apriori 算法的实现 50
4.3.1 Apriori 算法 51
4.3.2 实现 52
4.4 抽取关联规则 54
4.5 小结 60
第5章 用转换器抽取特征 62
5.1 特征抽取 62
5.1.1 在模型中表示事实 62
5.1.2 通用的特征创建模式 64
5.1.3 创建好的特征 66
5.2 特征选择 67
5.3 创建特征 71
5.4 创建自己的转换器 75
5.4.1 转换器API 76
5.4.2 实现细节 76
5.4.3 单元测试 77
5.4.4 组装起来 79
5.5 小结 79
第6章 使用朴素贝叶斯进行社会
媒体挖掘 80
6.1 消歧 80
6.1.1 从社交网站下载数据 81
6.1.2 加载数据集并对其分类 83
6.1.3 数据集重建 87
6.2 文本转换器 90
6.2.1 词袋 . 91
6.2.2 N 元语法 92
6.2.3 其他特征 93
6.3 朴素贝叶斯 93
6.3.1 贝叶斯定理 93
6.3.2 朴素贝叶斯算法 94
6.3.3 算法应用示例 95
6.4 应用 96
6.4.1 抽取特征 97
6.4.2 将字典转换为矩阵 98
6.4.3 训练朴素贝叶斯分类器 98
6.4.4 组装起来 98
6.4.5 用F1 值评估 99
6.4.6 从模型中获取更多有用的
特征 100
6.5 小结 102
第7章 用图挖掘找到感兴趣的人 104
7.1 加载数据集 104
7.1.1 用现有模型进行分类 106
7.1.2 获取好友信息 107
7.1.3 构建网络 110
7.1.4 创建图 112
7.1.5 创建用户相似度图 114
7.2 寻找子图 117
7.2.1 连通分支 117
7.2.2 优化参数选取准则 119
7.3 小结 123
第8章 用神经网络破解验证码 124
8.1 人工神经网络 124
8.2 创建数据集 127
8.2.1 绘制验证码 127
8.2.2 将图像切分为单个的字母 129
8.2.3 创建训练集 130
8.2.4 根据抽取方法调整训练数据集 131
8.3 训练和分类 132
8.3.1 反向传播算法 134
8.3.2 预测单词 135
8.4 用词典提升正确率 138
8.4.1 寻找最相似的单词 138
8.4.2 组装起来 139
8.5 小结 140
第9章 作者归属问题 142
9.1 为作品找作者 142
9.1.1 相关应用和使用场景 143
9.1.2 作者归属 143
9.1.3 获取数据 144
9.2 功能词 147
9.2.1 统计功能词 148
9.2.2 用功能词进行分类 149
9.3 支持向量机 150
9.3.1 用SVM 分类 .......................... 151
9.3.2 内核 151
9.4 字符N 元语法 152
9.5 使用安然公司数据集 153
9.5.1 获取安然数据集 153
9.5.2 创建数据集加载工具 154
9.5.3 组装起来 158
9.5.4 评估 158
9.6 小结 160
第10章 新闻语料分类 161
10.1 获取新闻文章 161
10.1.1 使用Web API 获取数据 162
10.1.2 数据资源宝库reddit 164
10.1.3 获取数据 165
10.2 从任意网站抽取文本 167
10.2.1 寻找任意网站网页中的主要
内容 167
10.2.2 组装起来 168
10.3 新闻语料聚类 170
10.3.1 k-means 算法 171
10.3.2 评估结果 173
10.3.3 从簇中抽取主题信息 175
10.3.4 用聚类算法做转换器 175
10.4 聚类融合 176
10.4.1 证据累积 176
10.4.2 工作原理 179
10.4.3 实现 180
10.5 线上学习 181
10.5.1 线上学习简介 181
10.5.2 实现 182
10.6 小结 184
第11章 用深度学习方法为图像中的
物体进行分类 185
11.1 物体分类 185
11.2 应用场景和目标 ................................ 185
11.3 深度神经网络 189
11.3.1 直观感受 189
11.3.2 实现 189
11.3.3 Theano 简介 190
11.3.4 Lasagne 简介 191
11.3.5 用nolearn 实现神经网络 194
11.4 GPU 优化 197
11.4.1 什么时候使用GPU 进行
计算 198
11.4.2 用GPU 运行代码 198
11.5 环境搭建 199
11.6 应用 201
11.6.1 获取数据 201
11.6.2 创建神经网络 202
11.6.3 组装起来 204
11.7 小结 205
第12章 大数据处理 206
12.1 大数据 206
12.2 大数据应用场景和目标 207
12.3 MapReduce 208
12.3.1 直观理解 209
12.3.2 单词统计示例 210
12.3.3 Hadoop MapReduce 212
12.4 应用 212
12.4.1 获取数据 213
12.4.2 朴素贝叶斯预测 215
12.5 小结 226
附录 接下来的方向 227

使用说明

1、下载并解压,得出pdf文件

2、如果打不开本文件,请务必下载pdf阅读器

3、安装后,在打开解压得出的pdf文件

4、双击进行阅读

展开全部内容
语言简体中文

同类热门

有柿电脑版有柿电脑版 潇湘书院电脑版潇湘书院电脑版 cnki全球学术快报电脑版cnki全球学术快报电脑版 未公开的Oracle数据库秘密未公开的Oracle数据库秘密 PHP语言精粹电子书PHP语言精粹电子书 linux常用命令大全linux常用命令大全 docker入门实战docker入门实战 C++黑客编程揭秘与防范第2版C++黑客编程揭秘与防范第2版

类似软件

热门标签

wps office个人版大全 有多开器的安卓模拟器 磁盘碎片整理软件大全 office2003版本大全 电脑财务软件大全 U盘杀毒软件大全 汉仪系列字体大全 硬盘专业检测工具 office兼容包大全 电脑文件格式转换软件大全 好用的文件搜索软件推荐 电脑上学英语的软件大全

网友评论1人参与,1条评论

评论需审核后才能显示

最新排行

手游排行软件排行热门应用