大小:30.14M
更新时间:23-09-03
系统:Pc

目录 第1 章 为什么需要清洗数据 1 1.1 新视角 1 1.2 数据科学过程 2 1.3 传达数据清洗工作的内容 3 1.4 数据清洗环境 4 1.5 入门示例 5 1.6 小结 9 第2 章 基础知识——格式、 类型与编码 11 2.1 文件格式 11 2.1.1 文本文件与二进制文件 11 2.1.2 常见的文本文件格式 14 2.1.3 分隔格式 14 2.2 归档与压缩 20 2.2.1 归档文件 20 2.2.2 压缩文件 21 2.3 数据类型、空值与编码 24 2.3.1 数据类型 25 2.3.2 数据类型间的相互转换 29 2.3.3 转换策略 30 2.3.4 隐藏在数据森林中的空值 37 2.3.5 字符编码 41 2.4 小结 46 第3 章 数据清洗的老黄牛——电子表格和文本编辑器 47 3.1 电子表格中的数据清洗 47 3.1.1 Excel 的文本分列功能 47 3.1.2 字符串拆分 51 3.1.3 字符串拼接 51 3.2 文本编辑器里的数据清洗 54 3.2.1 文本调整 55 3.2.2 列选模式 56 3.2.3 加强版的查找与替换功能 56 3.2.4 文本排序与去重处理 58 3.2.5 Process Containing 60 3.3 示例项目 60 3.3.1 第一步:问题陈述 60 3.3.2 第二步:数据收集 60 3.3.3 第三步:数据清洗 61 3.3.4 第四步:数据分析 63 3.4 小结 63 第4 章 讲通用语言——数据转换 64 4.1 基于工具的快速转换 64 4.1.1 从电子表格到CSV 65 4.1.2 从电子表格到JSON 65 4.1.3 使用phpMyAdmin 从SQL语句中生成CSV 或JSON 67 4.2 使用PHP 实现数据转换 69 4.2.1 使用PHP 实现SQL 到JSON的数据转换 69 4.2.2 使用PHP 实现SQL 到CSV的数据转换 70 4.2.3 使用PHP 实现JSON 到CSV的数据转换 71 4.2.4 使用PHP 实现CSV 到JSON的数据转换 71 4.3 使用Python 实现数据转换 72 4.3.1 使用Python 实现CSV 到JSON的数据转换 72 4.3.2 实现CSV 到JSON的数据转换 73 4.3.3 使用Python 实现JSON 到CSV的数据转换 74 4.4 示例项目 74 4.4.1 第一步:下载GDF 格式的数据 75 4.4.2 第二步:在文本编辑器中查看GDF 文件 75 4.4.3 第三步:从GDF 格式到JSON格式的转换 76 4.4.4 第四步:构建D3 图 79 4.4.5 第五步:把数据转换成Pajek格式 81 4.4.6 第六步:简单的社交网络分析 83 4.5 小结 84 第5 章 收集并清洗来自网络的数据 85 5.1 理解HTML 页面结构 85 5.1.1 行分隔模型 86 5.1.2 树形结构模型 86 5.2 方法一:Python 和正则表达式 87 5.2.1 第一步:查找并保存实验用的Web 文件 88 5.2.2 第二步:观察文件内容并判定有价值的数据 88 5.2.3 第三步:编写Python 程序把数据保存到CSV 文件中 89 5.2.4 第四步:查看文件并确认清洗结果 89 5.2.5 使用正则表达式解析HTML的局限性 90 5.3 方法二:Python 和BeautifulSoup 90 5.3.1 第一步:找到并保存实验用的文件 90 5.3.2 第二步:安装BeautifulSoup 91 5.3.3 第三步:编写抽取数据用的Python 程序 91 5.3.4 第四步:查看文件并确认清洗结果 92 5.4 方法三:Chrome Scraper 92 5.4.1 第一步:安装Chrome 扩展Scraper 92 5.4.2 第二步:从网站上收集数据 92 5.4.3 第三步:清洗数据 94 5.5 示例项目:从电子邮件和论坛中抽取数据 95 5.5.1 项目背景 95 5.5.2 第一部分:清洗来自Google Groups 电子邮件的数据 96 5.5.3 第二部分:清洗来自网络论坛的数据 99 5.6 小结 105 第6 章 清洗PDF 文件中的数据 106 6.1 为什么PDF 文件很难清洗 106 6.2 简单方案——复制 107 6.2.1 我们的实验文件 107 6.2.2 第一步:把我们需要的数据复制出来 108 6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中 109 6.2.4 第三步:轻量级文件 110 6.3 第二种技术——pdfMiner 111 6.3.1 第一步:安装pdfMiner 111 6.3.2 第二步:从PDF 文件中提取文本 111 6.4 第三种技术——Tabula 113 6.4.1 第一步:下载Tabula 113 6.4.2 第二步:运行Tabula 113 6.4.3 第三步:用Tabula 提取数据 114 6.4.4 第四步:数据复制 114 6.4.5 第五步:进一步清洗 114 6.5 所有尝试都失败之后——第四种技术 115 6.6 小结 117 第7 章 RDBMS 清洗技术 118 7.1 准备 118 7.2 第一步:下载并检查Sentiment140 119 7.3 第二步:清洗要导入的数据 119 7.4 第三步:把数据导入MySQL 120 7.4.1 发现并清洗异常数据 121 7.4.2 创建自己的数据表 122 7.5 第四步:清洗&字符 123 7.6 第五步:清洗其他未知字符 124 7.7 第六步:清洗日期 125 7.8 第七步:分离用户提及、标签和URL 127 7.8.1 创建一些新的数据表 128 7.8.2 提取用户提及 128 7.8.3 提取标签 130 7.8.4 提取URL 131 7.9 第八步:清洗查询表 132 7.10 第九步:记录操作步骤 134 7.11 小结 135 第8 章 数据分享的最佳实践 136 8.1 准备干净的数据包 136 8.2 为数据编写文档 139 8.2.1 README 文件 139 8.2.2 文件头 141 8.2.3 数据模型和图表 142 8.2.4 维基或CMS 144 8.3 为数据设置使用条款与许可协议 144 8.4 数据发布 146 8.4.1 数据集清单列表 146 8.4.2 Stack Exchange 上的OpenData 147 8.4.3 编程马拉松 147 8.5 小结 148 第9 章 Stack Overflow 项目 149 9.1 第一步:关于Stack Overflow 的问题 149 9.2 第二步:收集并存储Stack Overflow数据 151 9.2.1 下载Stack Overflow 数据 151 9.2.2 文件解压 152 9.2.3 创建MySQL 数据表并加载数据 152 9.2.4 构建测试表 154 9.3 第三步:数据清洗 156 9.3.1 创建新的数据表 157 9.3.2 提取URL 并填写新数据表 158 9.3.3 提取代码并填写新表 159 9.4 第四步:数据分析 161 9.4.1 哪些代码分享网站最为流行 161 9.4.2 问题和答案中的代码分享网站都有哪些 162 9.4.3 提交内容会同时包含代码分享URL 和程序源代码吗 165 9.5 第五步:数据可视化 166 9.6 第六步:问题解析 169 9.7 从测试表转向完整数据表 169 9.8 小结 170 第10 章项目 171 10.1 第一步:关于推文归档数据的问题 171 10.2 第二步:收集数据 172 10.2.1 下载并提取弗格森事件的数据文件 173 10.2.2 创建一个测试用的文件 174 10.2.3 处理推文ID 174 10.3 第三步:数据清洗 179 10.3.1 创建数据表 179 10.3.2 用Python 为新表填充数据 180 10.4 第四步:简单的数据分析 182 10.5 第五步:数据可视化 183 10.6 第六步:问题解析 186 10.7 把处理过程应用到全数据量(非测试用)数据表 186 10.8 小结 187
应用信息
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
像计算机科学家一样思考python 第2版48.16M艾伦·B.唐尼pdf扫描版 像计算机科学家一样思考python 第2版是一本python语言入门书籍,由艾伦·B.唐尼编著。本书从基本的编程概念开始,一步步引导读者了解Python语言,再逐渐掌握函数、递归、数据结构和面向对象设计等高阶概念。本书第2版及其辅助代码均已升级,支
查看
鸟哥的linux私房菜服务器架设篇(第2版)67.26Mpdf扫描版鸟哥的linux私房菜服务器架设篇(第2版)是一本linux服务器架设教材书籍,由linux专家鸟哥编著。本书是前作的升级版本,根据服务器与网络环境做了大幅度的修订与改写,主要介绍了架站之前所需的技能分析、网络基本概念、linux常用的网络命令、主机的简
查看
Android C++高级编程:使用NDK69.44M辛纳pdf扫描版 Android是一个完整的、开放的、免费的移动平台,该平台给移动应用开发者提供了无限的机会。但是如何才能更好的常握好呢?小编推荐大家阅读《android c++高级编程:使用NDK》,这是国内首本基于C++开发android应用书籍,由美国程序员辛
查看
android应用案例开发大全第三版pdf123.32M吴亚峰高清扫描版 android应用案例开发大全第三版是一本毕业设计、项目实战、商业开发的案例参考指南手册,由吴亚峰、苏亚光和于复兴三人共同编著。本书技术新颖,贴近实战,涵盖了现实中几乎所有的流行技术,如3D、传感器、OpenGL ES 2.0、动态壁纸、LBS百度
查看
hadoop大数据分析与挖掘实战38.23M张良均pdf扫描版hadoop大数据分析与挖掘实战是一本Hadoop大数据分析实战书籍,由张良均,樊哲,赵云龙和李成华四人共同编著。本书以大家熟知的Hadoop技术来展开,理论部分介绍了Hadoop生态系统基本原理及常用大数据挖掘建模工具。案例部分以解决某个应用的挖掘目标
查看
写给大家看的设计书第4版18.76Mpdf扫描版 写给大家看的设计书 第四版是一本设计类书籍的经典著作,由世界级设计师Robin Williams编著。第4版全面修订,更新了大量实例,并增加了一章内容,介绍排版设计。本书全书主要围绕着对比、重复、对齐和亲密性四条基本原则而写作,简洁通俗、
查看
html5+javascript动画基础52.79Mpdf高清扫描版html5+javascript动画基础是一本教你如何使用HTML5和JavaScript来完成一系列的动画特效的教学书籍,由[美]billy lamberta,Keith Peters著,徐宁,李强翻译,人民邮电出版社出版。全书详细介绍了如何使用HTM
查看
架构探险从零开始写javaweb框架74.49M黄勇pdf扫描版 架构探险从零开始写javaweb框架是一本java web框架编写教材,由阿里巴巴公司系统架构师黄勇编著。本书从开发工具入手,让读者们熟练使用IDE,更让读者一步一步熟悉Servlet到搭建轻量级框架,精简易懂,由类加载器到实现请求转发,使读者更清
查看
gb500092012建筑结构荷载规范7.23Mpdf高清版建筑结构荷载规范2012是2012年由中国建筑工业出版社出版的图书,由中国住房和城乡建设部与国家质检总局联合发布,共分术语及符号、荷载分类和荷载效应组合、楼面和屋面活荷载、吊车荷载、雪荷载、风荷载等7章和7个附录。自2012年10月1日起实施,其中,第3
查看
javascript dom编程艺术22.32M中文pdf清晰版javascript是Web开发中最重要的一门语言,它强大而优美,无论是桌面开发,还是移动应用,javascript都是必须掌握的技术。但如何才能学习好javascript呢?小编在此推荐用户使用javascript dom编程艺术,该图书是由[英]Je
查看
微服务那些事儿pdf70.53Mpdf扫描版微服务那些事儿是一本接地气的微服务架构书籍,由纪晓峰编著。全文以幽默风趣的语言生动地讲述了微服务,将微服务相关的理论知识、技术实现和项目实践一网打尽。本书内容都是从实际出发,其内容均来自作者常年在前方发回的“报道”,这里有客户最关心的话题,如何拆分服务、
查看