大小:55.4M
更新时间:22-01-03
系统:Pc
版本:v
第1章大数据产业1 1.1大数据产业现状1 1.2对大数据产业的理解2 1.3大数据人才3 1.3.1供需失衡3 1.3.2人才方向3 1.3.3环节和工具5 1.3.4门槛障碍6 1.4小结8 第2章步入数据之门9 2.1什么是数据9 2.2什么是信息10 2.3什么是算法12 2.4统计、概率和数据挖掘13 2.5什么是商业智能13 2.6小结14 第3章排列组合与古典概型15 3.1排列组合的概念16 3.1.1公平的决断——扔硬币16 3.1.2非古典概型17 3.2排列组合的应用示例18 3.2.1双色球18 3.2.2购车摇号20 3.2.3德州扑克21 3.3小结25 第4章统计与分布27 4.1加和值、平均值和标准差27 4.1.1加和值28 4.1.2平均值29 4.1.3标准差30 4.2加权均值32 4.2.1混合物定价32 4.2.2决策权衡34 4.3众数、中位数35 4.3.1众数36 4.3.2中位数37 4.4欧氏距离37 4.5曼哈顿距离39 4.6同比和环比41 4.7抽样43 4.8高斯分布45 4.9泊松分布49 4.10伯努利分布52 4.11小结54 第5章指标55 5.1什么是指标55 5.2指标化运营58 5.2.1指标的选择58 5.2.2指标体系的构建62 5.3小结63 第6章信息论64 6.1信息的定义64 6.2信息量65 6.2.1信息量的计算65 6.2.2信息量的理解66 6.3香农公式68 6.4熵70 6.4.1热力熵70 6.4.2信息熵72 6.5小结75 第7章多维向量空间76 7.1向量和维度76 7.1.1信息冗余77 7.1.2维度79 7.2矩阵和矩阵计算80 7.3数据立方体83 7.4上卷和下钻85 7.5小结86 第8章回归87 8.1线性回归87 8.2拟合88 8.3残差分析94 8.4过拟合99 8.5欠拟合100 8.6曲线拟合转化为线性拟合101 8.7小结104 第9章聚类105 9.1K-Means算法106 9.2有趣模式109 9.3孤立点110 9.4层次聚类110 9.5密度聚类113 9.6聚类评估116 9.6.1聚类趋势117 9.6.2簇数确定119 9.6.3测定聚类质量121 9.7小结124 第10章分类125 10.1朴素贝叶斯126 10.1.1天气的预测128 10.1.2疾病的预测130 10.1.3小结132 10.2决策树归纳133 10.2.1样本收集135 10.2.2信息增益136 10.2.3连续型变量137 10.3随机森林140 10.4隐马尔可夫模型141 10.4.1维特比算法144 10.4.2前向算法151 10.5支持向量机SVM154 10.5.1年龄和好坏154 10.5.2“下刀”不容易157 10.5.3距离有多远158 10.5.4N维度空间中的距离159 10.5.5超平面怎么画160 10.5.6分不开怎么办160 10.5.7示例163 10.5.8小结164 10.6遗传算法164 10.6.1进化过程164 10.6.2算法过程165 10.6.3背包问题165 10.6.4极大值问题173 10.7小结181 第11章关联分析183 11.1频繁模式和Apriori算法184 11.1.1频繁模式184 11.1.2支持度和置信度185 11.1.3经典的Apriori算法187 11.1.4求出所有频繁模式190 11.2关联分析与相关性分析192 11.3稀有模式和负模式193 11.4小结194 第12章用户画像195 12.1标签195 12.2画像的方法196 12.2.1结构化标签196 12.2.2非结构化标签198 12.3利用用户画像203 12.3.1割裂型用户画像203 12.3.2紧密型用户画像204 12.3.3到底“像不像”204 12.4小结205 第13章推荐算法206 13.1推荐思路206 13.1.1贝叶斯分类206 13.1.2利用搜索记录207 13.2User-basedCF209 13.3Item-basedCF211 13.4优化问题215 13.5小结217 第14章文本挖掘218 14.1文本挖掘的领域218 14.2文本分类219 14.2.1Rocchio算法220 14.2.2朴素贝叶斯算法223 14.2.3K-近邻算法225 14.2.4支持向量机SVM算法226 14.3小结227 第15章人工神经网络228 15.1人的神经网络228 15.1.1神经网络结构229 15.1.2结构模拟230 15.1.3训练与工作231 15.2FANN库简介233 15.3常见的神经网络235 15.4BP神经网络235 15.4.1结构和原理236 15.4.2训练过程237 15.4.3过程解释240 15.4.4示例240 15.5玻尔兹曼机244 15.5.1退火模型244 15.5.2玻尔兹曼机245 15.6卷积神经网络247 15.6.1卷积248 15.6.2图像识别249 15.7深度学习255 15.8小结256 第16章大数据框架简介257 16.1著名的大数据框架257 16.2Hadoop框架258 16.2.1MapReduce原理259 16.2.2安装Hadoop261 16.2.3经典的WordCount264 16.3Spark框架269 16.3.1安装Spark270 16.3.2使用Scala计算WordCount271 16.4分布式列存储框架272 16.5PrestoDB——神奇的CLI273 16.5.1Presto为什么那么快273 16.5.2安装Presto274 16.6小结277 第17章系统架构和调优278 17.1速度——资源的配置278 17.1.1思路一:逻辑层面的优化279 17.1.2思路二:容器层面的优化279 17.1.3思路三:存储结构层面的优化280 17.1.4思路四:环节层面的优化280 17.1.5资源不足281 17.2稳定——资源的可用282 17.2.1借助云服务282 17.2.2锁分散282 17.2.3排队283 17.2.4谨防“雪崩”283 17.3小结285 第18章数据解读与数据的价值286 18.1运营指标286 18.1.1互联网类型公司常用指标287 18.1.2注意事项288 18.2AB测试289 18.2.1网页测试290 18.2.2方案测试290 18.2.3灰度发布292 18.2.4注意事项293 18.3数据可视化295 18.3.1图表295 18.3.2表格299 18.4多维度——大数据的灵魂299 18.4.1多大算大299 18.4.2大数据网络300 18.4.3去中心化才能活跃301 18.4.4数据会过剩吗302 18.5数据变现的场景303 18.5.1数据价值的衡量的讨论303 18.5.2场景1:征信数据307 18.5.3场景2:宏观数据308 18.5.4场景3:画像数据309 18.6小结310 附录AVMwareWorkstation的安装311 附录BCentOS虚拟机的安装方法314 附录CPython语言简介318 附录DScikit-learn库简介323 附录EFANNforPython安装324 附录F群众眼中的大数据325 写作花絮327 参考文献329
同类热门
类似软件
DataExplore数据恢复大师5.42M656人在用DataExplore数据恢复大师是由上海数擎信息科技有限公司推出的一款功能强大的硬盘数据恢复软件。软件提供了较低层次恢复功能,只要硬盘数据没有被覆盖掉,文件就能找得到,支持FAT12/FAT16/FAT32/NTFS/EXT2文件系统,可以导出文件夹,
查看大数据时代生活工作与思维的大变革12.82M244人在用大数据时代生活工作与思维的大变革是由“大数据商业应用第一人”的维克托·迈尔·舍恩伯格先生编著,《科学》《自然》等著名学术期刊最推崇的互联网研究者之一,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历。《大数据时代:生活、工
查看机器学习实践指南pdf58.57M227人在用机器学习实践指南:案例应用解析(第2版)是一本机器学习实践指南,由麦好编著。全书分为准备篇、基础篇、 统计分析实战篇和机器学习实战篇。机器学习算法建立在复杂的计算理论基础之上,并涉及多门数学学科。作者在全收介绍机器学习的发展及应用前景,使读者产生浓厚的兴
查看热门标签
网友评论0人参与,0条评论
最新排行
玻璃幕墙图集03j103-34.91Mpdf高清版 玻璃幕墙图集03j103-3是中华人民共和国建设部批准发布的一款玻璃幕墙标准,主要包括吊挂玻璃幕墙、吊挂点支式玻璃幕墙、座地玻璃幕墙、座地点支式玻璃幕墙四个大类,是指导规范的专业图集,能够给作业者提供更好的参考。另外本款03j103-3全玻璃幕墙图
查看说文解字上下册电子版13.76M(汉)许慎扫描版 公元100年,时值东汉和帝永元十二年,太尉南阁祭酒许慎编撰了中国第一部以“六书”理论系统分析字形、解释字义、辨识声读的规范字典——说文解字,这是我国第一部按部首编排的字典,总共15卷,其中包括序目1卷,作者许慎根据文字的形体,创立540个部首,将9
查看cocos2d js游戏开发59.83M凌建风pdf扫描版cocos2d js引擎不但具有优秀的跨平台能力,同时易于使用及高效、灵活的特性,可以大大提高开发效率,降低研发成本。这里小编提供cocos2d js游戏开发 pdf下载,由凌建风编著,人民邮电出版社出版。全书对cocos2d js引擎进行了很全面的剖析
查看oracle dba手记2数据库诊断案例与内部恢复实践34.8M盖国强pdf扫描版 oracle dba手记2是一本Oracle诊断案例和案例实践指南,全称叫做oracle dba手记2数据库诊断案例与内部恢复实践,是由数据库技术专家盖国强和爱好者崔华合著而成,集合了各行业DBA的工作经验与思考,包含了精心挑选的数据库诊断案例与数
查看c#高级编程第10版172.94MChristian Nagel pdf扫描版c#高级编程第10版是C#经典名著C#高级编程的第十个版本,本书由微软开发技术代言人Christian Nagel编著,李铭翻译。全书涵盖了充分利用升级功能,积极简化工作流程所需的全部信息。作者循序渐进地讲解了Visual Studio 2015、.NE
查看MySQL新技术在淘宝的使用2.23MPDF版MySQL新技术在淘宝的使用是一本PDF格式的电子书籍,它详细的介绍了mysql数据库的用途,总体架构,mysql服务器硬件架构,以及MySQL在淘宝中如何应用等方面的知识,对于网站设计人员具有很强的参考价格,希望对网友们有帮助。大纲目录:1、mysql
查看鸟哥的linux私房菜服务器架设篇(第2版)67.26Mpdf扫描版鸟哥的linux私房菜服务器架设篇(第2版)是一本linux服务器架设教材书籍,由linux专家鸟哥编著。本书是前作的升级版本,根据服务器与网络环境做了大幅度的修订与改写,主要介绍了架站之前所需的技能分析、网络基本概念、linux常用的网络命令、主机的简
查看python入门经典教材45.5M中文完整版python是诞生于1989年的一种开放源代码的脚本编程语言,语言风格清晰,具有较强的可读性,应用非常广泛。可对于部分新手程序员来讲,想要灵活运用python必须拥有一套秘籍,而小编今天分享的“python入门经典”就是非常优秀的秘籍,通过该书读者不仅能
查看java web整合开发王者归来308.04M刘京华pdf扫描版java web整合开发王者归来是一本备受推崇的Java Web开发经典图书,由刘京华等人编著。本书内容丰富翔实,详细的讲解了包括Sring、Struts、Hibemate、Webword、web service、EJB3、JPA、SSH组合在内的许多主
查看硬件架构的艺术数字电路的设计方法与技术37.73Mpdf扫描版硬件架构的艺术数字电路的设计方法与技术是由印度半导体公司高级系统工程师Mohit Arora编著的一本硬件架构设计图书,简称为硬件架构的艺术,是李海东,来萍,师谦等翻译,机械工业出版社出版。全书主要内容涉及时钟和复位,多时钟域设计,时钟分频器,低功耗设计
查看