大小:54.01M
更新时间:23-08-21
系统:Pc
版本:v
数据科学实战是一本大数据时代的实战宝典,由舒特编著,冯凌秉、王群锋翻译。全书汇集了谷歌、微软、eBay等公司一线数据科学家真知灼见,揭秘数据科学相关的新算法、方法与模型。作者既介绍实践应用,也提出理论规范。一方面,介绍了一些业内顶尖数据科学家的日常工作内容,带大家看看他们在实践中如何应用数据科学知识,借此管中窥豹,了解这一学科目前的应用现状。
另一方面,我们还将从学术角度去定义数据科学的研究范畴。数据科学实战会多角度全方位、深入地介绍数据科学。它是对现有数据学科领域的纵览,试图为这一学科勾勒出一幅全景图。不仅可供不具备相关领域知识的初学者真正了解数据科学,而且也是熟悉线性代数、概率论、统计学、机器学习等主题的人士开阔视野、提升实战技能的优秀指南。
本书脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义,它界定了数据科学的研究范畴,是一本注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。
Rachel Schutt
美国新闻集团旗下数据科学部门高级副总裁、哥伦比亚大学统计系兼职教授、约翰逊实验室高级研究科学家,同时也是哥伦比亚大学数据科学及工程研究所教育委员会的发起人之一。她曾在谷歌研究院工作数年,负责设计算法原型并通过建模理解用户行为。
Cathy O'Neil
约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评估银行和对冲基金风险的软件公司RiskMetrics,个人博客:mathbabe.org。
译者简介:
冯凌秉
澳大利亚国立大学统计学博士,本科和研究生分别毕业于中南财经政法大学和中国人民大学。现在,他任职于江西财经大学金融管理国际研究院,任讲师、硕士生导师,研究方向为应用统计与金融计量。
王群锋
毕业于西安电子科技大学,现任职于IBM西安研发中心,从事下一代统计预测软件的开发运维工作。
作者介绍 XII
关于封面图 XIII
前言 XIV
第1章 简介:什么是数据科学
1.1 大数据和数据科学的喧嚣
1.2 冲出迷雾
1.3 为什么是现在
1.4 数据科学的现状和历史
1.5 数据科学的知识结构
1.6 思维实验:元定义
1.7 什么是数据科学家
1.7.1 学术界对数据科学家的定义
1.7.2 工业界对数据科学家的定义
第2章 统计推断、探索性数据分析和数据科学工作流程
2.1 大数据时代的统计学思考
2.1.1 统计推断
2.1.2 总体和样本
2.1.3 大数据的总体和样本
2.1.4 大数据意味着大胆的假设
2.1.5 建模
2.2 探索性数据分析
2.2.1 探索性数据分析的哲学
2.2.2 练习:探索性数据分析
2.3 数据科学的工作流程
2.4 思维实验:如何模拟混沌
2.5 案例学习:RealDirect
2.5.1 RealDirect是如何赚钱的
2.5.2 练一练:RealDirect公司的数据策略
第3章 算法
3.1 机器学习算法
3.2 三大基本算法
3.2.1 线性回归模型
3.2.2 k 近邻模型(k-NN)
3.2.3 k 均值算法
3.3 练习:机器学习算法基础
3.4 总结
3.5 思维实验:关于统计学家的自动化
第4章 垃圾邮件过滤器、朴素贝叶斯与数据清理
4.1 思维实验:从实例中学习
4.1.1 线性回归为何不适用
4.1.2 k 近邻效果如何
4.2 朴素贝叶斯模型
4.2.1 贝叶斯法则
4.2.2 个别单词的过滤器
4.2.3 直通朴素贝叶斯
4.3 拉普拉斯平滑法
4.4 对比朴素贝叶斯和k 近邻
4.5 Bash代码示例
4.6 网页抓取:API和其他工具
4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型
第5章 逻辑回归
5.1 思维实验
5.2 分类器
5.2.1 运行时间
5.2.2 你自己
5.2.3 模型的可解释性
5.2.4 可扩展性
5.3 逻辑回归:一个来自M6D 的真实案例研究
5.3.1 点击模型
5.3.2 模型背后
5.3.3 α和β 的参数估计
5.3.4 牛顿法
5.3.5 随机梯度下降法
5.3.6 操练
5.3.7 模型评价
5.4 练习题
第6章 时间戳数据与金融建模
6.1 Kyle Teague与GetGlue公司
6.2 时间戳
6.2.1 探索性数据分析(EDA)
6.2.2 指标和新变量
6.2.3 下一步怎么做
6.3 轮到Cathy O'Neill了
6.4 思维实验
6.5 金融建模
6.5.1 样本期内外以及因果关系
6.5.2 金融数据处理
6.5.3 对数收益率
6.5.4 实例:标准普尔指数
6.5.5 如何衡量波动率
6.5.6 指数平滑法
6.5.7 金融模型的反馈
6.5.8 聊聊回归模型
6.5.9 先验信息量
6.5.10 一个小例子
6.6 练习:GetGlue提供的时间戳数据
第7章 从数据到结论
7.1 William Cukierski
7.1.1 背景介绍:数据科学竞赛
7.1.2 背景介绍:众包模式
7.2 Kaggle模式
7.2.1 Kaggle的参赛者
7.2.2 Kaggle的客户
7.3 思维实验:关于作业自动评分系统
7.4 特征选择
7.4.1 例子:留住用户
7.4.2 过滤型
7.4.3 包装型
7.4.4 决策树与嵌入型变量选择
7.4.5 熵
7.4.6 决策树算法
7.4.7 如何在决策树模型中处理连续性变量
7.4.8 随机森林
7.4.9 用户黏性:模型的预测能力与可解释性
7.5 David Huffaker:谷歌社会学研究的新方法
7.5.1 从描述性统计到预测模型
7.5.2 谷歌的社交研究
7.5.3 隐私保护
7.5.4 思维实验:如何消除用户的顾虑
第8章 构建面向大量用户的推荐引擎
8.1 一个真实的推荐引擎
8.1.1 最近邻算法回顾
8.1.2 最近邻模型的已知问题
8.1.3 超越近邻模型:基于机器学习的分类模型
8.1.4 高维度问题
8.1.5 奇异值分解(SVD)
8.1.6 关于SVD的重要特性
8.1.7 主成分分析(PCA)
8.1.8 交替最小二乘法
8.1.9 固定矩阵V,更新矩阵U
8.1.10 关于这些算法的一点思考
8.2 思维实验:如何过滤模型中的泡沫
8.3 练习:搭建自己的推荐系统
第9章 数据可视化与欺诈侦测
9.1 数据可视化的历史
9.1.1 Gabriel Tarde
9.1.2 Mark 的思维实验
9.2 到底什么是数据科学
9.2.1 Processing
9.2.2 Franco Moretti
9.3 一个数据可视化的方案实例
9.4 Mark 的数据可视化项目
9.4.1 《纽约时报》大厅里的可视化:Moveable Type
9.4.2 屏幕上的生命:Cascade可视化项目
9.4.3 Cronkite广场项目
9.4.4 eBay与图书网购
9.4.5 公共剧场里的"莎士比亚机"
9.4.6 这些展览的目的是什么
9.5 数据科学和风险
9.5.1 关于Square公司
9.5.2 支付风险
9.5.3 模型效果的评估问题
9.5.4 建模小贴士
9.6 数据可视化在Square
9.7 Ian的思维实验
9.8 关于数据可视化
第10章 社交网络与数据新闻学
10.1 Morning Analytics与社交网络
10.2 社交网络分析
10.3 关于社交网络分析的相关术语
10.3.1 如何衡量向心性
10.3.2 使用哪种向心性测度
10.4 思维实验
10.5 Morningside Analytics
10.6 从统计学的角度看社交网络分析
10.6.1 网络的表示方法与特征值向心度
10.6.2 随机网络的第一个例子:Erdos-Renyi模型
10.6.3 随机网络的第二个例子:指数随机网络图模型
10.7 数据新闻学
10.7.1 关于数据新闻学的历史回顾
10.7.2 数据新闻报告的写作:来自专家的建议
第11章 因果关系研究
11.1 相关性并不代表因果关系
11.1.1 对因果关系提问
11.1.2 干扰因子:一个关于在线约会网站的例子
11.2 OK Cupid的发现
11.3 黄金准则:随机化临床实验
11.4 A/B测试
11.5 退一步求其次:关于观察性研究
11.5.1 辛普森悖论
11.5.2 鲁宾因果关系模型
11.5.3 因果关系的可视化
11.5.4 定义:因果关系
11.6 三个小建议
第12章 流行病学
12.1 Madigan的学术背景
12.2 思维实验
12.3 统计学在现代
12.4 医学文献与观察性研究
12.5 分层法不解决干扰因子的问题
12.6 就没有更好的办法吗
12.7 研究性实验(OMOP)
12.8 最后的思维实验
第13章 从竞赛中学到的:数据泄漏和模型评价
13.1 Claudia作为数据科学家的知识结构
13.1.1 首席数据科学家的生活
13.1.2 作为一名女数据科学家
13.2 数据挖掘竞赛
13.3 如何成为出色的建模者
13.4 数据泄漏
13.4.1 市场预测
13.4.2 亚马逊案例学习:出手阔绰的顾客
13.4.3 珠宝抽样问题
13.4.4 IBM 客户锁定
13.4.5 乳腺癌检测
13.4.6 预测肺炎
13.5 如何避免数据泄漏
13.6 模型评价
13.6.1 准确度重要吗
13.6.2 概率的重要性,不是非0 即1
13.7 如何选择算法
13.8 最后一个例子
13.9 临别感言
第14章 数据工程:MapReduce、Pregel、Hadoop
14.1 关于David Crawshaw
14.2 思维实验
14.3 MapReduce
14.4 单词频率问题
14.5 其他MapReduce案例
14.6 Pregel
14.7 关于Josh Wills
14.8 思维实验
14.9 给数据科学家的话
14.9.1 数据丰富和数据匮乏
14.9.2 设计模型
14.10 算算Hadoop的经济账
14.10.1 Hadoop简介
14.10.2 Cloudera
14.11 Josh 的工作流程
14.12 如何开始使用Hadoop
第15章 听听学生们怎么说
15.1 重在过程
15.2 不再简单
15.3 援助之手
15.4 殊途同归
15.5 逢山开路,遇水架桥
15.6 作品展示
第16章 下一代数据科学家、自大狂和职业道德
16.1 前面都讲了些什么
16.2 什么是数据科学(再问一次)
16.3 谁是下一代的数据科学家
16.3.1 成为解决问题的人
16.3.2 培养软技能
16.3.3 成为提问者
16.4 做一个有道德感的数据科学家
16.5 对于职业生涯的建议
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读试读
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
mysql入门很简单169.1M黄缙华pdf扫描版 mysql入门很简单是一本MySql数据库的入门书籍,获得大量好评,5次印刷,畅销15000册,由黄缙华编著。本书以初学者的角度出发,由浅入深,循序渐进地介绍了mysql数据库应用与开发的相关知识,包括MySQL数据库基础,Windows平台下安装
查看Android微博应用开发实践36.86M孙弋pdf扫描版Android微博应用开发实践是一本Android应用开发书籍,由孙弋,李贵民,王树奇编著,全书详细地介绍了Android平台应用程序开发过程中所涉及的开发语言、开发流程及基础开发资源应用等内容,并以国内应用人数最多的新浪微博平台应用程序开发为例,详细描
查看WOW!Illustrator CS6完全自学宝典91.9Mpdf全彩版WOW!Illustrator CS6完全自学宝典是一本Illustrator CS6矢量图软件的使用指导手册,由数码平方团队编著。本书内容丰富,内含187个实例、27个拓展知识、50个实用技巧,理论中结合了实践,只要你跟着书上的流程,边学、边练、边应用
查看分布式数据库系统原理(第3版)116.41M顾兹叙pdf扫描版分布式数据管理从一个潜在的重要技术变成普遍应用的技术,而因特网和万维网的出现使人们审视分布的观点发生了变化,如何才能更好的学习和掌握呢?分布式数据库系统原理(第3版)为你提供了详细的学习指引,这是一本分布式数据库系统的开山之作,还是清华大学等高校的分布式
查看尼康l810使用说明书11.68M尼康l810是一款性价比较高的长焦相机,具备1614万有效像素,搭载26倍光学变焦带22.5mm广角镜头,尼康L810配置3.0英寸LCD显示屏,支持19种优化场景模式,全高清立体声短片录制。可是这么一款强大的相机不会操作可如何是好呢?今天小编就带来了尼
查看黑客大曝光:网络安全机密与解决方案(第7版)42.47M黑客大曝光:网络安全机密与解决方案(第7版)是全球销量第一的网络和计算机信息安全图书,作者(美)麦克克鲁尔,(美)斯坎布雷,(美)克茨著,赵军等译。它也是有史以来写得最为成功的信息安全旷世之作,被信息安全界奉为“武林秘笈”。作者以独创的知己知彼视角揭示了
查看MATLAB图形图像pdf86.99M苏金明/王永利pdf扫描版 MATLAB是国内最流行的多种科学计算软件,可以极大的提高科研人员的工作效率,更快更准确地完成计算方案的设计。这里小编为广大网友提供MATLAB图形图像pdf下载,该图书由苏金明/王永利编著,电子工业出版社出版。全书结合了MATLAB最新版本7.0
查看ArcCatalog使用手册13.05Mpdf完整版ArcCatalog是ArcGIS Desktop中最常用的应用程序之一,它是地理数据的资源管理器,用户通过ArcCatalog来组织、管理和创建GIS数据。特点就是采用了标准关系数据库技术,来表现地理信息的数据模型,利用标准的数据库管理系统来存储和管理
查看Java核心技术卷一:基础知识(原书第10版)128.62Mpdf扫描版Java核心技术卷一:基础知识(原书第10版)是java领域最有影响力和价值的著作之一,由美国圣何塞州立大学计算机科学系教授凯.霍斯特曼编著。本书内容翔实、客观准确,不拖泥带水,根据Java SE 8全面更新,同时修正了第9版中的不足,系统全面讲解了Ja
查看weblogic server宝典23.14Mpdf完整版WebLogic是美国Oracle公司开发的一个基于JAVAEE架构的中间件,它主要是用于开发、集成、部署和管理大型分布式Web应用,最近国内也有许多的开发者在学习这项技术,如果您也要学的话小编建议您先下载这款weblogic server宝典来看看,该
查看perl实例精解原书第4版21.71M奎格利 pdf扫描版perl实例精解原书第4版是一本PERL学习书籍,由奎格利编著,陈宗斌翻译。本书提供了学习Perl最容易,最实用的方式。传奇般的硅谷编程讲师奎格利彻底更新了她的杰作,提供今天的Perl用户所需的大多数技能和信息——包括全新的MySQL数据库程序设计和旨在
查看锋利的jquery第2版106.29Mpdf电子书锋利的jquery第2版是目前学习和进阶jquery最好的电子图书,已经由小编制作成了pdf电子书,用户下载后即可阅读。第2版不仅在内容方面进行更新,而且还在上一版的基础上做了大量的修订和扩展,涵盖了如下几个方面:1、例子全部改用最新的jquery库;2
查看