大小:30.14M
更新时间:23-09-03
系统:Pc
目录 第1 章 为什么需要清洗数据 1 1.1 新视角 1 1.2 数据科学过程 2 1.3 传达数据清洗工作的内容 3 1.4 数据清洗环境 4 1.5 入门示例 5 1.6 小结 9 第2 章 基础知识——格式、 类型与编码 11 2.1 文件格式 11 2.1.1 文本文件与二进制文件 11 2.1.2 常见的文本文件格式 14 2.1.3 分隔格式 14 2.2 归档与压缩 20 2.2.1 归档文件 20 2.2.2 压缩文件 21 2.3 数据类型、空值与编码 24 2.3.1 数据类型 25 2.3.2 数据类型间的相互转换 29 2.3.3 转换策略 30 2.3.4 隐藏在数据森林中的空值 37 2.3.5 字符编码 41 2.4 小结 46 第3 章 数据清洗的老黄牛——电子表格和文本编辑器 47 3.1 电子表格中的数据清洗 47 3.1.1 Excel 的文本分列功能 47 3.1.2 字符串拆分 51 3.1.3 字符串拼接 51 3.2 文本编辑器里的数据清洗 54 3.2.1 文本调整 55 3.2.2 列选模式 56 3.2.3 加强版的查找与替换功能 56 3.2.4 文本排序与去重处理 58 3.2.5 Process Containing 60 3.3 示例项目 60 3.3.1 第一步:问题陈述 60 3.3.2 第二步:数据收集 60 3.3.3 第三步:数据清洗 61 3.3.4 第四步:数据分析 63 3.4 小结 63 第4 章 讲通用语言——数据转换 64 4.1 基于工具的快速转换 64 4.1.1 从电子表格到CSV 65 4.1.2 从电子表格到JSON 65 4.1.3 使用phpMyAdmin 从SQL语句中生成CSV 或JSON 67 4.2 使用PHP 实现数据转换 69 4.2.1 使用PHP 实现SQL 到JSON的数据转换 69 4.2.2 使用PHP 实现SQL 到CSV的数据转换 70 4.2.3 使用PHP 实现JSON 到CSV的数据转换 71 4.2.4 使用PHP 实现CSV 到JSON的数据转换 71 4.3 使用Python 实现数据转换 72 4.3.1 使用Python 实现CSV 到JSON的数据转换 72 4.3.2 实现CSV 到JSON的数据转换 73 4.3.3 使用Python 实现JSON 到CSV的数据转换 74 4.4 示例项目 74 4.4.1 第一步:下载GDF 格式的数据 75 4.4.2 第二步:在文本编辑器中查看GDF 文件 75 4.4.3 第三步:从GDF 格式到JSON格式的转换 76 4.4.4 第四步:构建D3 图 79 4.4.5 第五步:把数据转换成Pajek格式 81 4.4.6 第六步:简单的社交网络分析 83 4.5 小结 84 第5 章 收集并清洗来自网络的数据 85 5.1 理解HTML 页面结构 85 5.1.1 行分隔模型 86 5.1.2 树形结构模型 86 5.2 方法一:Python 和正则表达式 87 5.2.1 第一步:查找并保存实验用的Web 文件 88 5.2.2 第二步:观察文件内容并判定有价值的数据 88 5.2.3 第三步:编写Python 程序把数据保存到CSV 文件中 89 5.2.4 第四步:查看文件并确认清洗结果 89 5.2.5 使用正则表达式解析HTML的局限性 90 5.3 方法二:Python 和BeautifulSoup 90 5.3.1 第一步:找到并保存实验用的文件 90 5.3.2 第二步:安装BeautifulSoup 91 5.3.3 第三步:编写抽取数据用的Python 程序 91 5.3.4 第四步:查看文件并确认清洗结果 92 5.4 方法三:Chrome Scraper 92 5.4.1 第一步:安装Chrome 扩展Scraper 92 5.4.2 第二步:从网站上收集数据 92 5.4.3 第三步:清洗数据 94 5.5 示例项目:从电子邮件和论坛中抽取数据 95 5.5.1 项目背景 95 5.5.2 第一部分:清洗来自Google Groups 电子邮件的数据 96 5.5.3 第二部分:清洗来自网络论坛的数据 99 5.6 小结 105 第6 章 清洗PDF 文件中的数据 106 6.1 为什么PDF 文件很难清洗 106 6.2 简单方案——复制 107 6.2.1 我们的实验文件 107 6.2.2 第一步:把我们需要的数据复制出来 108 6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中 109 6.2.4 第三步:轻量级文件 110 6.3 第二种技术——pdfMiner 111 6.3.1 第一步:安装pdfMiner 111 6.3.2 第二步:从PDF 文件中提取文本 111 6.4 第三种技术——Tabula 113 6.4.1 第一步:下载Tabula 113 6.4.2 第二步:运行Tabula 113 6.4.3 第三步:用Tabula 提取数据 114 6.4.4 第四步:数据复制 114 6.4.5 第五步:进一步清洗 114 6.5 所有尝试都失败之后——第四种技术 115 6.6 小结 117 第7 章 RDBMS 清洗技术 118 7.1 准备 118 7.2 第一步:下载并检查Sentiment140 119 7.3 第二步:清洗要导入的数据 119 7.4 第三步:把数据导入MySQL 120 7.4.1 发现并清洗异常数据 121 7.4.2 创建自己的数据表 122 7.5 第四步:清洗&字符 123 7.6 第五步:清洗其他未知字符 124 7.7 第六步:清洗日期 125 7.8 第七步:分离用户提及、标签和URL 127 7.8.1 创建一些新的数据表 128 7.8.2 提取用户提及 128 7.8.3 提取标签 130 7.8.4 提取URL 131 7.9 第八步:清洗查询表 132 7.10 第九步:记录操作步骤 134 7.11 小结 135 第8 章 数据分享的最佳实践 136 8.1 准备干净的数据包 136 8.2 为数据编写文档 139 8.2.1 README 文件 139 8.2.2 文件头 141 8.2.3 数据模型和图表 142 8.2.4 维基或CMS 144 8.3 为数据设置使用条款与许可协议 144 8.4 数据发布 146 8.4.1 数据集清单列表 146 8.4.2 Stack Exchange 上的OpenData 147 8.4.3 编程马拉松 147 8.5 小结 148 第9 章 Stack Overflow 项目 149 9.1 第一步:关于Stack Overflow 的问题 149 9.2 第二步:收集并存储Stack Overflow数据 151 9.2.1 下载Stack Overflow 数据 151 9.2.2 文件解压 152 9.2.3 创建MySQL 数据表并加载数据 152 9.2.4 构建测试表 154 9.3 第三步:数据清洗 156 9.3.1 创建新的数据表 157 9.3.2 提取URL 并填写新数据表 158 9.3.3 提取代码并填写新表 159 9.4 第四步:数据分析 161 9.4.1 哪些代码分享网站最为流行 161 9.4.2 问题和答案中的代码分享网站都有哪些 162 9.4.3 提交内容会同时包含代码分享URL 和程序源代码吗 165 9.5 第五步:数据可视化 166 9.6 第六步:问题解析 169 9.7 从测试表转向完整数据表 169 9.8 小结 170 第10 章项目 171 10.1 第一步:关于推文归档数据的问题 171 10.2 第二步:收集数据 172 10.2.1 下载并提取弗格森事件的数据文件 173 10.2.2 创建一个测试用的文件 174 10.2.3 处理推文ID 174 10.3 第三步:数据清洗 179 10.3.1 创建数据表 179 10.3.2 用Python 为新表填充数据 180 10.4 第四步:简单的数据分析 182 10.5 第五步:数据可视化 183 10.6 第六步:问题解析 186 10.7 把处理过程应用到全数据量(非测试用)数据表 186 10.8 小结 187
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
几何公差设计问答电子书11.44M官方版 几何公差设计问答由刘巽尔编著,本书主要以问答的形式介绍了几何公差的基本概念、在图样上的框格标注方法、几何公差带的基本原理以及理论正确尺寸、位置度公差、注出几何公差值、一般几何公差等有关标准的基本知识及其应用技术。应用对象是中、初级机械科学与工程技术
查看第一行代码android pdf高清扫描版7.68M郭霖著 第一行代码android第一版pdf下是一本android开发入门实用书籍,由从事android开发多年的工程师郭霖编著,作者将自己丰富的项目实战经验,以浅显易懂的语言和图文并茂的实例融入本书中,涵盖android系统架构、四大组件、数据存储、多媒
查看建筑施工计算手册第五版174.2Mpdf中文完整版 建筑施工计算手册是一本pdf中文完整版的高清电子书籍,由江正荣编著,包括了建筑施工计算手册第五版和建筑施工计算手册完整版,其中完整版全书共22章,详细的讲述了土方,爆破,支护,排降水,地基与基础,砌体与墙体,脚手架,模板,钢筋,混凝土,大体积混凝土
查看11g329-1/2/3图集12.01Mpdf高清完整版 11g329图集全套是一个包含了11g329-1、11g329-2和11g329-3的国家建筑标准设计图集,也是建筑物抗震构造详图的pdf高清完整版,由中国建筑标准设计研究院编制,中华人民共和国住房和城乡建设部发行,可以适用于多层和高层钢筋混凝土房
查看Oracle学习笔记:日常应用深入管理性能优化89.07M李晓黎pdf扫描版 Oracle学习笔记:日常应用深入管理性能优化是一本Oracle数据库进阶学习书籍,由李晓黎编著。本书采用笔记的形式讲解,包含了数据库管理员所能遇到的绝大多数问题,从数据库日常维护到性能监测、分析和优化。全书通过知识点提醒、案例重现的形式,让读者轻
查看OpenStack云计算实战手册(第2版)30.75Mpdf扫描版 OpenStack云计算实战手册(第2版)是一本OpenStack云计算实战书籍,由Kevin Jackson和Cody Bunch 两人共同编著,黄凯,杜玉杰两人翻译。全书通过上百条涵盖了Nova、Swift、Keystone、Glance、Ho
查看c++程序设计语言(第4部分:标准库)68.02M原书第4版c++程序设计语言(第4部分:标准库)是C++之父Bjarne Stroustrup编写的全新作品,也是通常用户所说的c++程序设计语言第四版,是无可替代的C++领域经典的参考书,详细的介绍C++11的各项新特性、功能等。全书知识结构完整,对C++语言介
查看水力学第4版上册下册9.46Mpdf高清完整版水力学第4版上册下册是一本学习水力学的主要理论及其应用的教材,由吴持恭编写,高教育出版社出版,此版本在第3版基础上,保持了原书 “循序渐进、加强基础、理论联系实际、利于教学”的特点,采用了由浅人深的方式,讲述了水静力学、水动力学基础、液流型态和水头损失、
查看photoshop从入门到精通数码照片处理篇34.57Mphotoshop应该是现代办公人员必须学会的软件,不管你工作用得到还是用不到,都应该学会,工作中用得到固然好,用不到的话你也可以给自己的相片美美地PS下啊,难道你没有看过网络上那些PS大神的作品,精彩绝美!今天小编给网友带来了photoshop从入门到
查看妙趣横生的算法 c语言实现54.64M杨峰高清扫描版妙趣横生的算法 c语言实现是一本算法入门经典书籍,由杨峰编著。本书内容丰富翔实,以通俗易懂的语言深入浅出地介绍了编程必备的数据结构、常用算法,编程实例,常见算法和数据结构面试题等,内容梯度科学,既适合入门,也适合进一步提高和研究。既涵盖基本理论,又包含大
查看java典型模块与项目实战大全75.41M周华清pdf扫描版java典型模块与项目实战大全是一本Java模块项目实战手册,由周华清\李为民\张昌龙编写。本书内容丰富翔实,涵盖Java语言6大技术要点,详解Java语法的最新特性。并且作者精选25个典型模块和4个项目案例,以现实职场中经典模块和完整项目系统为背景,以
查看r语言与网站分析 完整版43.3M李明pdf扫描版r语言与网站分析是一本R语言与网站分析技术实战手册,由李明编著。本书侧重于R语言对网站分析和挖掘的代码实现,并不侧重于对计算结果的分析讨论以及网站统计的思维方法。同时,本书以通俗的非学术语言结合实际的代码案例来介绍网站分析的基本思路和统计理论的数学原理,
查看Eclipse从入门到精通陈刚PDF版84.37MEclipse从入门到精通陈刚PDF版是一款简单实用的PDF格式的Eclipse教程,全书共分为四篇,分别为起步篇,SWT/JFace篇,插件开发篇和Web开发篇。全书内容精简,去除了大量的冗余代码,含金量高,全面攻克java开发领域的前沿技术,极大地提
查看大数据存储mongodb实战指南33.27M扫描版大数据存储mongodb实战指南是一本MongoDB数据库实战手册,由郭远威编著,本书内容丰富翔实,剖析了mongodb在生产环境中使用需要知道的所有内容,包括大数据与云计算、询语言系统、索引与查询优化、增改删操作、Journaling日志功能、聚集分析
查看