大小:399.57M
更新时间:23-08-30
系统:Pc
网络爬虫全解析:技术原理与实践,简称为网络爬虫全解析,是由猎兔搜索创始人罗刚编写的,作者将多年以来的开发经验进行总结,可以帮助读者全面快速的掌握网络爬虫开发方法。全书从开发网络爬虫所需要的Java语法开始讲解,然后介绍基本的爬虫原理。通过介绍优先级队列、宽度优先搜索等内容,引领读者入门,之后根据当前风起云涌的云计算热潮,重点讲述了云计算的相关内容及其在爬虫中的应用,以及信息抽取、链接分析等内容。
接下来介绍了有关爬虫的Web数据挖掘等内容,为了让读者更深入地了解爬虫的实际应用,最后一章是案例分析,适用于对开发信息采集软件感兴趣的自学者。
《网络爬虫全解析:技术原理与实践》介绍了如何开发网络爬虫。内容主要包括开发网络爬虫所需要的Java语法基础和网络爬虫的工作原理,如何使用开源组件HttpClient和爬虫框架Crawler4j抓取网页信息,以及针对抓取到的文本进行有效信息的提取。为了扩展抓取能力,本书介绍了实现分布式网络爬虫的关键技术。本书介绍了从图像和语音等多媒体格式文件中提取文本信息,以及如何使用大数据技术存储抓取到的信息。最后,本书以实战为例,介绍了如何抓取微信和微博,以及在电商、医药、金融等领域的案例应用。其中,电商领域的应用介绍了使用网络爬虫抓取商品信息入库到网上商店的数据库表。医药领域的案例介绍了抓取PubMed医药论文库。金融领域的案例介绍了抓取股票信息,以及从年报PDF文档中提取表格等。本书适用于对开发信息采集软件感兴趣的自学者。也可以供有Java或程序设计基础的开发人员参考。
第1章 技术基础 1
1.1 第一个程序 1
1.2 准备开发环境 2
1.2.1 JDK 2
1.2.2 Eclipse 3
1.3 类和对象 4
1.4 常量 5
1.5 命名规范 6
1.6 基本语法 6
1.7 条件判断 7
1.8 循环 8
1.9 数组 9
1.10 位运算 11
1.11 枚举类型 13
1.12 比较器 14
1.13 方法 14
1.14 集合类 15
1.14.1 动态数组 15
1.14.2 散列表 15
1.15 文件 19
1.15.1 文本文件 19
1.15.2 二进制文件 23
1.16 多线程 27
1.16.1 基本的多线程 28
1.16.2 线程池 30
1.17 折半查找 31
1.18 处理图片 34
1.19 本章小结 35
第2章 网络爬虫入门 36
2.1 获取信息 36
2.1.1 提取链接 37
2.1.2 采集新闻 37
2.2 各种网络爬虫 38
2.2.1 信息采集器 40
2.2.2 广度优先遍历 41
2.2.3 分布式爬虫 42
2.3 爬虫相关协议 43
2.3.1 网站地图 44
2.3.2 Robots协议 45
2.4 爬虫架构 48
2.4.1 基本架构 48
2.4.2 分布式爬虫架构 51
2.4.3 垂直爬虫架构 54
2.5 自己写网络爬虫 55
2.6 URL地址查新 57
2.6.1 嵌入式数据库 58
2.6.2 布隆过滤器 60
2.6.3 实现布隆过滤器 61
2.7 部署爬虫 63
2.7.1 部署到Windows 64
2.7.2 部署到Linux 64
2.8 本章小结 65
第3章 定向采集 69
3.1 下载网页的基本方法 69
3.1.1 网卡 70
3.1.2 下载网页 70
3.2 HTTP基础 75
3.2.1 协议 75
3.2.2 URI 77
3.2.3 DNS 84
3.3 使用HttpClient下载网页 84
3.3.1 HttpCore 94
3.3.2 状态码 98
3.3.3 创建 99
3.3.4 模拟浏览器 99
3.3.5 重试 100
3.3.6 抓取压缩的网页 102
3.3.7 HttpContext 104
3.3.8 下载中文网站 105
3.3.9 抓取需要登录的网页 106
3.3.10 代理 111
3.3.11 DNS缓存 112
3.3.12 并行下载 113
3.4 下载网络资源 115
3.4.1 重定向 115
3.4.2 解决套接字连接限制 118
3.4.3 下载图片 119
3.4.4 抓取视频 122
3.4.5 抓取FTP 122
3.4.6 网页更新 122
3.4.7 抓取限制应对方法 126
3.4.8 URL地址提取 131
3.4.9 解析URL地址 134
3.4.10 归一化 135
3.4.11 增量采集 135
3.4.12 iframe 136
3.4.13 抓取JavaScript动态页面 137
3.4.14 抓取即时信息 141
3.4.15 抓取暗网 141
3.5 PhantomJS 144
3.6 Selenium 145
3.7 信息过滤 146
3.7.1 匹配算法 147
3.7.2 分布式过滤 153
3.8 采集新闻 153
3.8.1 网页过滤器 154
3.8.2 列表页 159
3.8.3 用机器学习的方法抓取新闻 160
3.8.4 自动查找目录页 161
3.8.5 详细页 162
3.8.6 增量采集 164
3.8.7 处理图片 164
3.9 遍历信息 164
3.10 并行抓取 165
3.10.1 多线程爬虫 165
3.10.2 垂直搜索的多线程爬虫 168
3.10.3 异步IO 172
3.11 分布式爬虫 176
3.11.1 JGroups 176
3.11.2 监控 179
3.12 增量抓取 180
3.13 管理界面 180
3.14 本章小结 181
第4章 数据存储 182
4.1 存储提取内容 182
4.1.1 SQLite 183
4.1.2 Access数据库 185
4.1.3 MySQL 186
4.1.4 写入维基 187
4.2 HBase 187
4.3 Web图 189
4.4 本章小结 193
第5章 信息提取 194
5.1 从文本提取信息 194
5.2 从HTML文件中提取文本 195
5.2.1 字符集编码 195
5.2.2 识别网页的编码 198
5.2.3 网页编码转换为字符串编码 201
5.2.4 使用正则表达式提取数据 202
5.2.5 结构化信息提取 206
5.2.6 表格 209
5.2.7 网页的DOM结构 210
5.2.8 使用Jsoup提取信息 211
5.2.9 使用XPath提取信息 217
5.2.10 HTMLUnit提取数据 219
5.2.11 网页结构相似度计算 220
5.2.12 提取标题 222
5.2.13 提取日期 224
5.2.14 提取模板 225
5.2.15 提取RDF信息 227
5.2.16 网页解析器原理 227
5.3 RSS 229
5.3.1 Jsoup解析RSS 230
5.3.2 ROME 231
5.3.3 抓取流程 231
5.4 网页去噪 233
5.4.1 NekoHTML 234
5.4.2 Jsoup 238
5.4.3 提取正文 240
5.5 从非HTML文件中提取文本 241
5.5.1 PDF文件 242
5.5.2 Word文件 245
5.5.3 Rtf文件 247
5.5.4 Excel文件 253
5.5.5 PowerPoint文件 254
5.6 提取标题 254
5.6.1 提取标题的一般方法 255
5.6.2 从PDF文件中提取标题 259
5.6.3 从Word文件中提取标题 261
5.6.4 从Rtf文件中提取标题 261
5.6.5 从Excel文件中提取标题 267
5.6.6 从PowerPoint文件中提取标题 270
5.7 图像的OCR识别 270
5.7.1 读入图像 271
5.7.2 准备训练集 272
5.7.3 图像二值化 274
5.7.4 切分图像 279
5.7.5 SVM分类 283
5.7.6 识别汉字 287
5.7.7 训练OCR 289
5.7.8 检测行 290
5.7.9 识别验证码 291
5.7.10 JavaOCR 292
5.8 提取地域信息 292
5.8.1 IP地址 293
5.8.2 手机 315
5.9 提取新闻 316
5.10 流媒体内容提取 317
5.10.1 音频流内容提取 317
5.10.2 视频流内容提取 321
5.11 内容纠错 322
5.11.1 模糊匹配问题 325
5.11.2 英文拼写检查 331
5.11.3 中文拼写检查 333
5.12 术语 336
5.13 本章小结 336
第6章 Crawler4j 338
6.1 使用Crawler4j 338
6.1.1 大众点评 339
6.1.2 日志 342
6.2 crawler4j原理 342
6.2.1 代码分析 343
6.2.2 使用Berkeley DB 344
6.2.3 缩短URL地址 347
6.2.4 网页编码 349
6.2.5 并发 349
6.3 本章小结 352
第7章 网页排重 353
7.1 语义指纹 354
7.2 SimHash 357
7.3 分布式文档排重 367
7.4 本章小结 369
第8章 网页分类 370
8.1 关键词加权法 371
8.2 机器学习的分类方法 378
8.2.1 特征提取 380
8.2.2 朴素贝叶斯 384
8.2.3 支持向量机 393
8.2.4 多级分类 401
8.2.5 网页分类 403
8.3 本章小结 403
第9章 案例分析 404
9.1 金融爬虫 404
9.1.1 中国能源政策数据 404
9.1.2 世界原油现货交易和期货交易数据 405
9.1.3 股票数据 405
9.1.4 从PDF文件中提取表格 408
9.2 商品搜索 408
9.2.1 遍历商品 410
9.2.2 使用HttpClient 415
9.2.3 提取价格 416
9.2.4 水印 419
9.2.5 数据导入ECShop 420
9.2.6 采集淘宝 423
9.3 自动化行业采集 424
9.4 社会化信息采集 424
9.5 微博爬虫 424
9.6 微信爬虫 426
9.7 海关数据 426
9.8 医药数据 427
9.9 本章小结 429
后记 430
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
精品推荐
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
21天学通python电子版43.51M刘凌霞pdf扫描版 21天学通Python是一本极具影响力原创计算机编程系列图书,由刘凌霞,郝宁波和吴海涛三人共同编著,本书为了让读者更快地上手,特别设计了适合初学者的学习方式,用准确的语言总结概念、用直观的图示演示过程、用详细的注释解释代码、用形象的比方帮助记忆。全
查看面向arcgis的python脚本编程40.59M 面向arcgis的python脚本编程是一本指导ArcGIS for Desktop专业用户进行Python开发的指南,本书将教会您如何通过编写Python代码处理空间数据并在ArcGIS中自动化实现地理处理任务。读者在学习完本书后,可以根据需要创
查看javascript编程全解6.67M井上诚一郎pdf扫描版 javascript编程全解是一本JavaScript语言的使用指导手册,由日本程序员井上诚一郎、土江拓郎和滨边将太三人共同编著。本书涵盖了JavaScript开发中各个方面的主题,对从客户端及服务端JavaScript等基础内容,到HTML5、W
查看零基础学C语言(第2版)104.05M康莉pdf扫描版 零基础学C语言(第2版)是一本c语言的基础入门图书,由程序员康莉、李宽,陈国建编著。本书由浅入深,循序渐进,全书分为编程基础、编程进阶、编程应用、项目实战、上机练习、面试指南六个阶段进行讲解,同时书中还拥有大量的实例、练习题和面试题,能够全方位的帮
查看objective-c基础教程pdf72.87M含1/2/3版objective-c基础教程结合了理论知识和实例程序,详细介绍了objective-c编程的相关内容和操作步骤,包括类和继承、对象类型、动态绑定、垃圾回收、属性声明、范畴、抽象类与类簇、对象的复制及存储、消息发送模式、图像视图、异常和错误、并行编程、键
查看origin8.0教程24Mpdf中文版本款origin8.0教程是pdf中文版的电子图书,作者方东明,全书详细的介绍了二维图形绘制实例,并将二维制图的上、中、下三部分合并在一起,同时制作了pdf书签功能,能够为初学origin软件的朋友一个全面整体的了解。软件简介:origin8.0是ori
查看编写高质量代码改善python程序的91个建议54.23M张颖赖勇浩pdf扫描版 编写高质量代码改善python程序的91个建议是一本Python程序代码编辑指南,由张颖和赖勇浩两人共同编著。本书将为你编写健壮、优雅、高质量的Python代码提供切实帮助!内容全部由Python编码的实践组成,从基本原则、惯用法、语法、库、设计模
查看尼康d3100说明书15.74Mpdf高清版 7101871018尼康d3100说明书专为持有同款相机的朋友准备的使用教程,该教程将图片和文字完美的结合在一起,从机身开始一只介绍到每一处的功能特点。同时压缩包内还特别提供了尼康d3100使用技巧,让不知如何操作尼康d3100单反相机的朋友瞬间成
查看高性能javascript37.21M尼古拉斯·泽卡斯pdf扫描版 高性能JavaScript是JavaScript语言领域的一本经典教材,由雅虎首页开发者尼古拉斯·泽卡斯编著。全书从性能角度分析JavaScript,不求面面俱到,但求字字如金。重点讨论了JavaScript的各个方面,内容涵盖运行时间、下载、do
查看写给大家看的设计书第4版18.76Mpdf扫描版 写给大家看的设计书 第四版是一本设计类书籍的经典著作,由世界级设计师Robin Williams编著。第4版全面修订,更新了大量实例,并增加了一章内容,介绍排版设计。本书全书主要围绕着对比、重复、对齐和亲密性四条基本原则而写作,简洁通俗、
查看perl实例精解原书第4版21.71M奎格利 pdf扫描版perl实例精解原书第4版是一本PERL学习书籍,由奎格利编著,陈宗斌翻译。本书提供了学习Perl最容易,最实用的方式。传奇般的硅谷编程讲师奎格利彻底更新了她的杰作,提供今天的Perl用户所需的大多数技能和信息——包括全新的MySQL数据库程序设计和旨在
查看