大小:16.64M
更新时间:23-09-01
系统:Pc
命令行中的数据科学是一本数据科学书籍,由詹森斯(Jeroen Janssens)编著。本书独树一帜,教你利用灵活的命令行工具成为高效多产的数据科学家。为此,作者开发了数据科学工具箱,一个包含80多个命令行工具的安装简单的虚拟环境,能在Windows、OS X和Linux操作系统上运行。
你将学会如何结合使用这些小而强大的命令行工具,快速地获取、清洗、探索和建模数据。通过阅读本书,你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据,利用命令行也将大大改进你的数据科学工作流。
《命令行中的数据科学》集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。
论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。
本书适合各层次的软件开发人员,包括专业和非 专业的数据分析人员。
前言 XIII 第1 章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数据科学工作 6 1.5.1 命令行的灵活性 6 1.5.2 命令行可增强 6 1.5.3 命令行可扩展 7 1.5.4 命令行可扩充 7 1.5.5 命令行处不在 7 1.6 一个现实用例 8 1.7 延伸阅读 11 第2 章 入门指南 13 2.1 概述 13 2.2 设置数据科学工具箱 13 2.2.1 步骤1:下载和安装VirtualBox 14 2.2.2 步骤2:下载和安装Vagrant 14 2.2.3 步骤3:下载并启动数据科学工具箱 14 2.2.4 步骤4:登录(Linux 和Mac OS X) 16 2.2.5 步骤4:登录(微软Windows) 16 2.2.6 步骤5:关闭或重启 16 2.3 必要的概念和工具 17 2.3.1 环境 17 2.3.2 运行命令行工具 18 2.3.3 五类命令行工具 19 2.3.4 命令行工具的组合 21 2.3.5 输入和输出重定向 22 2.3.6 处理文件 23 2.3.7 寻求帮助 24 2.4 延伸阅读 26 第3 章 数据获取 27 3.1 概述 27 3.2 将本地文件复制到数据科学工具箱 28 3.2.1 本地数据科学工具箱 28 3.2.2 远程数据科学工具箱 28 3.3 解压缩文件 29 3.4 微软Excel 电子表格的转换 30 3.5 查询关系数据库 32 3.6 从互联网下载 33 3.7 调用Web API 35 3.8 延伸阅读 36 第4 章 创建可重用的命令行工具 37 4.1 概述 38 4.2 将单行转变为shell 脚本 38 4.2.1 步骤1:复制和粘贴 39 4.2.2 步骤2:添加执行权限 40 4.2.3 步骤3:定义shebang 41 4.2.4 步骤4:删除固定的输入 42 4.2.5 步骤5:参数化 42 4.2.6 步骤6:扩展PATH 43 4.3 用Python 和R 创建命令行工具 44 4.3.1 移植shell 脚本 45 4.3.2 处理来自标准输入的流数据 46 4.4 延伸阅读 47 第5 章 数据清洗 49 5.1 概述 50 5.2 纯文本的常见清洗操作 50 5.2.1 行过滤 50 5.2.2 值提取 54 5.2.3 值替换和删除 55 5.3 处理CSV 56 5.3.1 主体、头部和列 56 5.3.2 对CSV 执行SQL 查询 60 5.4 处理HTML/XML 和JSON 61 5.5 CSV 的常见清洗操作 65 5.5.1 列的提取和重排序 65 5.5.2 行过滤 66 5.5.3 列合并 67 5.5.4 多个CSV 文件的合并 70 5.6 延伸阅读 73 第6 章 管理数据工作流 75 6.1 概述 76 6.2 Drake 简介 76 6.3 Drake 的安装 76 6.4 获取古腾堡计划中下载最多的电子书 78 6.5 所有工作流都从单个步骤开始 79 6.6 具体情况具体对待 81 6.7 重新构建具体目标 82 6.8 讨论 83 6.9 延伸阅读 83 第7 章 数据探索 85 7.1 概述 85 7.2 检查数据及其属性 86 7.2.1 确定有数据头 86 7.2.2 检查所有数据 86 7.2.3 特征名称和数据类型 87 7.2.4 唯一标识、连续变量和因子 89 7.3 计算描述性统计信息 90 7.3.1 使用csvstat 90 7.3.2 在命令行中通过Rio 使用R 92 7.4 生成可视化图形 95 7.4.1 介绍Gunplot 和feedgnuplot 95 7.4.2 介绍ggplot2 97 7.4.3 直方图 99 7.4.4 条形图 101 7.4.5 密度图 102 7.4.6 箱线图 103 7.4.7 散点图 103 7.4.8 折线图 105 7.4.9 总结 106 7.5 延伸阅读 106 第8 章 并行管道 107 8.1 概述 108 8.2 串行处理 108 8.2.1 对数字进行遍历 108 8.2.2 对行进行遍历 109 8.2.3 对文件进行遍历 110 8.3 并行处理 111 8.3.1 GNU Parallel 介绍 112 8.3.2 指定输入 113 8.3.3 控制并发任务的个数 114 8.3.4 记录日志和输出 115 8.3.5 创建并行工具 116 8.4 分布式处理 117 8.4.1 获得运行中的AWS EC2 实例列表 117 8.4.2 在远程机器上运行命令 118 8.4.3 在远程机器间分发本地数据 119 8.4.4 在远程机器上处理文件 120 8.5 讨论 123 8.6 延伸阅读 123 第9 章 数据建模 125 9.1 概述 126 9.2 更多的酒,来吧! 126 9.3 用Tapkee 降维 129 9.3.1 介绍Tapkee 130 9.3.2 安装Tapkee 130 9.3.3 线性和非线性映射 130 9.4 用Weka 聚类 132 9.4.1 介绍Weka 132 9.4.2 在命令行里改进Weka 132 9.4.3 在CSV 和ARFF 格式之间转换 136 9.4.4 比较三种聚类算法 136 9.5 通过SciKit-Learn Laboratory 进行回归 139 9.5.1 准备数据 139 9.5.2 运行实验 139 9.5.3 解析结果 140 9.6 用BigML 分类 141 9.6.1 生成均衡的训练和测试数据集 141 9.6.2 调用API 143 9.6.3 检查结果 143 9.6.4 小结 144 9.7 延伸阅读 144 第10 章 总结 145 10.1 让我们回顾一下145 10.2 三条建议 146 10.2.1 有耐心 146 10.2.2 有所创新 146 10.2.3 肯于实践 147 10.3 接下来做什么 147 10.3.1 API 147 10.3.2 shell 编程 147 10.3.3 Python、R 和SQL 147 10.3.4 数据解释 148 10.4 联系方式 148 附录A 命令行工具列表 149 附录B 参考文献 167 作者介绍 169
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读试读
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
读者文摘2016年合集包20.4MPDF高清版 读者2016年合集是将2016年全年的期刊进行打包而成的一个合集包,包括读者第1期到第24期,全部为pdf高清格式。读者在刊物内容及形式方面与时俱进,追求高品位、高质量,力求精品,并以其形式和内容的丰富性及多样性,赢得了各个年龄段和不同阶层读者的喜
查看wireshark使用教程(超详细)2.28Mpdf高清版 wireshark使用教程pdf是专为wireshark软件而编制的实用使用说明书,pdf高清格式,教程详细的介绍了什么是Wireshark、如何编译/安装Wireshark、Wireshark用户界面、如何实时捕捉数据包、如何处理已经捕捉的包、文
查看Struts2+Spring3+Hibernate框架技术精讲与整合案例113.46M缪勇pdf扫描版 Java Web技术是最为流行的开发技术之一,以JSP技术为基础,整合Struts 2、Spring 3、Hibernate 4和Ajax技术开发Java Web应用已经成为当今主流的技术体系,但如何才能更好的入门和掌握呢?这里小编推荐阅读Stru
查看游戏架构设计与策划基础26.42M黄石pdf扫描版游戏架构设计与策划基础是一本游戏开发与策划教材,由黄石、李志远、陈洪三人共同编著。本书主要讲解了游戏相关专业的基础课程,如美术和编程等,然后本书又具体介绍了游戏策划、游戏背景设计、游戏关卡与任务设计、游戏界面与用户控制等一系列游戏策划和架构设计流程,突出
查看android 4 高级编程第3版133.31M迈耶pdf扫描版android 4 高级编程第3版是一本android编程开发指导图书,由美国Android开发人员迈耶Reto Meier编著。本书在深入分析了Android应用程序的组件和生命周期的同时,还介绍了创建基于地图的应用程序和使用基于位置的服务的相关知识,
查看android驱动开发与移植实战详解5.14Mpdf高清版android驱动开发与移植实战详解是一本pdf高清版的电子图书,已经附带了pdf福昕阅读器在软件包中,用户可以即下即看。android安卓系统是谷歌公司推出的一款手机系统,是基于linux内核开发的,能够迅速建立手机软件的解决方案。该系统采用了webk
查看后台开发 核心技术与应用实践118M徐晓鑫pdf扫描版 后台开发 核心技术与应用实践是腾讯资深后台工程师徐晓鑫多年经验结晶,本书完整勾勒后台工程师能力体系结构图,详细讲解后台开发所需核心技术、开发工具和实践方法,用通俗的文字、详尽的示例代码,结合实际工作中的案例,讲述了后台开发方方面面的知识,内容丰富,
查看深入理解hadoop 原书第2版50.83M扫描版深入理解hadoop 原书第2版是一本Hadoop系统使用掌握指导书籍,由世界级大数据专家萨米尔.瓦德卡和马杜.西德林埃共同编著。全书深入剖析了Hadoop系统实现原理及其工程实践应用,里面包含了大量真实案例和数据,从Hadoops各组件的运行机理,深入
查看写给大家看的设计书第4版18.76Mpdf扫描版写给大家看的设计书 第四版是一本设计类书籍的经典著作,由世界级设计师Robin Williams编著。第4版全面修订,更新了大量实例,并增加了一章内容,介绍排版设计。本书全书主要围绕着对比、重复、对齐和亲密性四条基本原则而写作,简洁通俗、幽默生动,再配以
查看linux内核探秘:深入解析文件系统和设备驱动的架构与设计44.75Mpdf扫描版 linux内核探秘:深入解析文件系统和设备驱动的架构与设计是一本linux内核学习指导书,由高剑林编著。本书从工业需求角度出发,注重效率和实用性,是帮助内核研发及调试、驱动开发等领域工程师正确认识并高效利用Linux内核的难得佳作。全书将整个内核分
查看大规模web服务开发技术pdf版132.09M伊藤直也 田中慎司pdf高清完整版大规模web服务开发技术是一款介绍web服务开发的教材,由伊藤直也,田中慎司[日本]编著,李剑译,电子工业出版社出版。全书内容从操作系统和计算机的原理开始,详细介绍了数据库的分布式方法、实用算法在系统中的应用、能支撑海量数据的搜索引擎的原理,以及统观系统
查看汇编语言的编程艺术第2版pdf187.05M高清电子书汇编语言的编程艺术第2版是目前讲解汇编语言最经典的图书,作者海德(Randall Hyde),马跃,包战翻译,它详细的介绍了编辑、编译和运行HLA程序,声明和使用常量、标量变量、指针、数组、结构、联合和命名空间,转换算术表达式,转换高级控制结构等内容。同
查看