大小:62.78M
更新时间:23-08-28
系统:Pc
数据集成原理电子书是一本数据集成的综合指南,由多恩、哈勒维、艾夫斯三人共同编著,孟小峰,马如霞,马友忠三人翻译。本书全面介绍了作为当今数据集成技术基础的理论和概念,并用具体的实例详细解释这些概念的系统实现,以及面临的各种挑战。作者详细的介绍了现代数据集成技术的很多方面,包括不同的集成方式、数据和模式匹配、查询处理和包装器,还包括Web以及多种数据类型,非常适合作为研究生数据集成课程教材。
近20年里,数据产生的方式不断得到扩展,带来数据管理需求和任务的不断变化,促使数据管理技术不断推陈出新。数据库管理系统、数据仓库与数据挖掘、数据集成被视为三足鼎立的现代数据管理技术,它们在构建信息系统中的作用相当、互为依存、缺一不可。但数据集成技术缺乏像数据库系统、数据挖掘广为人知的专业教材,使得该技术虽“叫好(广为应用)”,但“不叫座(缺乏教学传播)”。大学鲜有开设此类课程,其知识的积累多散见论文、系统。《数据集成原理》可以说一举改变了数据集成没有专业教材的困局,尤其在当今大数据背景下,其作用尤为突出。
数据集成主要用来解决跨多个数据源的查询处理问题。《数据集成原理》是有关数据集成技术的集大成之作。全书是以教科书的逻辑整理有关内容,强调知识的基础性和理论性。主要讨论以下问题:如何对数据库思想进行扩充和深化,从而使其能够容纳外部信息源,处理Web的分布式特性和信息共享带来的问题,特别是异构性和不确定性。
《数据集成原理》内容主要包括三部分。第一部分以数据库课程涵盖的研究主题为基础,主要关注数据集成领域的基本技术,如查询的表示、数据源的描述、模式匹配、查询处理、集成方法等:穿插补充了Web数据集成的内容,如包装器、数据匹配(实体识别)等。第二部分主要介绍扩展数据集成的知识,包括xml、语义Web、不确定性、数据溯源等。第三部分介绍了解决特定集成问题的创新框架,包括Web数据集成、基于关键字的按需集成、对等集成、协同集成等。最后介绍了数据集成技术的主要研究方向。
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读试读
出版者的话
中文版序
译者序
前言
第1章 绪论
1.1 什么是数据集成
1.2 数据集成面临的挑战
1.2.1 系统原因
1.2.2 逻辑原因
1.2.3 社会和管理原因
1.2.4 设定预期
1.3 数据集成架构
1.3.1 数据集成系统的组成部分
1.3.2 数据集成实例
1.4 全书概览
参考文献注释
第一部分 数据集成技术基础
第2章 查询表达式及运算
2.1 数据库概念回顾
2.1.1 数据模型
2.1.2 完整性约束
2.1.3 查询和应答
2.1.4 合取查询
2.1.5 datalog查询
2.2 查询展开
2.3 查询包含与等价
2.3.1 形式化定义
2.3.2 合取查询的包含
2.3.3 合取查询的并集
2.3.4 带有比较谓词的合取查询
2.3.5 带有否定的合取查询
2.3.6 包语义、分组和聚集
2.4 基于视图计算查询
2.4.1 问题定义
2.4.2 视图与查询计算的相关性
2.4.3 查询重写的可能长度
2.4.4 桶算法和MiniCon算法
2.4.5 逻辑方法:逆规则算法
2.4.6 算法比较
2.4.7 基于视图的查询应答
参考文献注释
第3章 数据源描述
3.1 概述和必要条件
3.2 模式映射语言
3.2.1 模式映射语言规则
3.2.2 全局视图
3.2.3 局部视图
3.2.4 全局-局部视图
3.2.5 元组生成依赖
3.3 访问模式限制
3.3.1 构建访问模式限制
3.3.2 生成可执行计划
3.4 中介模式上的完整性约束
3.4.1 带有完整性约束的LAV
3.4.2 带有完整性约束的GAV
3.5 结果完备性
3.5.1 局部完备性
3.5.2 结果完备性检测
3.6 数据级的异构性
3.6.1 标度差异性
3.6.2 相同实体的多重表示
参考文献注释
第4章 字符串匹配
4.1 问题描述
4.2 相似度度量
4.2.1 基于序列的相似度度量
4.2.2 基于集合的相似度度量
4.2.3 混合相似度度量
4.2.4 语音相似度度量
4.3 可扩展的字符串匹配
4.3.1 字符串上的倒排索引
4.3.2 大小过滤
4.3.3 前缀过滤
4.3.4 位置过滤
4.3.5 边界过滤
4.3.6 其他相似度度量方法的可扩展技术
参考文献注释
第5章 模式匹配与模式映射
5.1 问题定义
5.1.1 语义映射
5.1.2 语义匹配
5.1.3 模式匹配与模式映射
5.2 模式匹配和模式映射的挑战
5.3 匹配和映射系统概述
5.3.1 模式匹配系统
5.3.2 模式映射系统
5.4 匹配器
5.4.1 名字匹配器
5.4.2 实例匹配器
5.5 组合匹配预测
5.6 施加域完整性约束
5.6.1 域完整性约束
5.6.2 搜索匹配组合空间
5.7 匹配选择器
5.8 匹配重用
5.8.1 学习匹配
5.8.2 学习器
5.8.3 训练元学习器
5.9 多对多匹配
5.10 由匹配到映射
参考文献注释
第6章 通用模式操作
6.1 模型管理操作
6.2 合并操作
6.3 模型生成操作
6.4 逆映射操作
6.5 模型管理系统
参考文献注释
第7章 数据匹配
7.1 问题定义
7.2 规则匹配
7.3 学习匹配
7.4 聚类匹配
7.5 概率匹配
7.5.1 贝叶斯网络
7.5.2 基于朴素贝叶斯的数据匹配
7.5.3 特征相关性
7.5.4 文本中的实体指代匹配
7.6 协同匹配
7.6.1 基于聚类的协同匹配
7.6.2 协同匹配文档中的实体指代
7.7 数据匹配的可扩展性
7.7.1 规则匹配扩展
7.7.2 其他匹配方法的扩展
参考文献注释
第8章 查询处理
8.1 背景:DBMS查询处理
8.1.1 选择查询执行计划
8.1.2 执行查询计划
8.2 背景:分布式查询处理
8.2.1 数据放置和转移
8.2.2 两阶段连接
8.3 数据集成查询处理
8.4 生成初始查询计划
8.5 互联网数据的查询执行
8.5.1 多线程、流水线、数据流架构
8.5.2 有自治数据源的接口
8.5.3 故障处理
8.6 自适应查询处理
8.7 事件驱动自适应策略
8.7.1 数据源故障和延迟处理
8.7.2 处理流水线操作结束时突发的基数问题
8.8 性能驱动的自适应策略
8.8.1 Eddy:基于队列的计划选择
8.8.2 校正查询处理:基于代价的重新优化
参考文献注释
第9章 包装器
9.1 引言
9.1.1 包装器的构建
9.1.2 包装器构建面临的挑战
9.1.3 构建方法的分类
9.2 手动的包装器构建
9.3 基于学习的包装器构建
9.3.1 HLRT包装器
9.3.2 Stalker包装器
9.4 无模式的包装器学习
9.4.1 建模数据源模式TS和抽取程序EW
9.4.2 推导数据模式TS和抽取程序EW
9.5 交互的包装器构建
9.5.1 使用Stalker交互标记页面
9.5.2 使用Poly识别正确的抽取规则
9.5.3 用Lixto创建抽取规则
参考文献注释
第10章 数据仓库与缓存
10.1 数据仓库
10.1.1 数据仓库设计
10.1.2 ETL:抽取/转换/加载
10.2 数据交换:描述性仓库
10.2.1 数据交换设置
10.2.2 数据交换解
10.2.3 通用解
10.2.4 核心通用解
10.2.5 查询物化信息库
10.3 缓存及部分物化
10.4 本地、外部数据的直接分析
参考文献注释
第二部分 扩展数据表示集成
第11章 XML
11.1 数据模型
11.2 XML结构和模式定义
11.2.1 文档类型定义
11.2.2 XML模式
11.3 查询语言
11.3.1 先驱:DOM和SAX
11.3.2 XPath:XML查询原语
11.3.3 XQuery:XML查询能力
11.4 XML查询处理
11.4.1 XML路径匹配
11.4.2 XML输出
11.4.3 XML查询优化
11.5 XML模式映射
11.5.1 嵌套映射
11.5.2 带嵌套映射的查询重写
参考文献注释
第12章 本体和知识表示
12.1 数据集成中的知识表示举例
12.2 描述逻辑
12.2.1 描述逻辑的语法
12.2.2 描述逻辑的语义
12.2.3 描述逻辑的推理
12.2.4 描述逻辑和数据库推理的比较
12.3 语义Web
12.3.1 资源描述框架
12.3.2 RDF模式
12.3.3 Web本体语言
12.3.4 RDF查询:SPARQL语言
参考文献注释
第13章 不确定性数据集成
13.1 不确定性表示
13.1.1 概率数据表示
13.1.2 从不确定性到概率
13.2 不确定模式映射建模
13.2.1 概率映射
13.2.2 概率映射的语义
13.2.3 表语义
13.2.4 元组语义
13.3 不确定性和数据溯源
参考文献注释
第14章 数据溯源
14.1 溯源的两种表示方法
14.1.1 使用数据标注表示溯源
14.1.2 使用数据关系图表示溯源
14.1.3 两种表示方法的可交换性
14.2 数据溯源的应用
14.3 溯源半环
14.3.1 半环形式化模型
14.3.2 半环模型的应用
14.4 溯源的存储
参考文献注释
第三部分 新型集成系统
第15章 Web数据集成
15.1 Web数据的用途
15.2 深层网络
15.2.1 垂直搜索
15.2.2 深层网络浅层化
15.3 主题门户网站
15.4 Web数据的轻量级集成
15.4.1 发现Web中的结构化数据
15.4.2 导入数据
15.4.3 合并多个数据集
15.4.4 重用他人工作成果
15.5 “即付即用”数据管理
参考文献注释
第16章 关键字搜索:按需集成
16.1 结构化数据中的关键字搜索
16.1.1 数据图
16.1.2 关键字匹配和评分模型
16.2 结果排名计算
16.2.1 图扩展算法
16.2.2 基于阈值的合并
16.3 数据集成中的关键字搜索
16.3.1 以可扩展的方式自动地构建边
16.3.2 可扩展的查询应答
16.3.3 通过学习算法调整边和节点的权重
参考文献注释
第17章 对等数据集成
17.1 对等节点和映射
17.2 映射的语义
17.3 PDMS查询应答的复杂性
17.3.1 有环PDMS
17.3.2 对等映射中的比较谓词
17.4 查询重写算法
17.5 组合映射
17.6 采用松散映射进行对等数据管理
17.6.1 基于相似度的映射
17.6.2 映射表
参考文献注释
第18章 支持协同的集成
18.1 协同因何而不同
18.2 处理校正和反馈
18.2.1 直接向下传播的用户更新
18.2.2 回溯传播的反馈或更新
18.3 协同标注与表达
18.3.1 映射作为标注:轨迹
18.3.2 评论和讨论作为标注
18.4 动态数据:协同数据共享
18.4.1 基本架构
18.4.2 映射更新与物化实例
18.4.3 冲突协调
参考文献注释
第19章 数据集成的未来
19.1 不确定性、溯源和清理
19.2 众包和“人计算”
19.3 构建大规模结构化Web数据库
19.4 轻量级集成
19.5 集成数据可视化
19.6 社交媒体集成
19.7 基于集群和云的并行处理与缓存
参考文献
索引
精品推荐
同类热门
类似软件
全国计算机等级考试模拟软件二级Access1.86M264人在用全国计算机等级考试模拟软件二级Access是目前最新的一款二级access无纸化考试模拟软件,该软件根据最新《全国计算机等级考试二级Access数据库程序设计考试大纲》而研发,具有自动计时、随机抽题、全真模拟、精选习题、详尽解析等功能,提供全面练习版和模
查看计算机网络第五版pdf20.72M414人在用计算机网络第五版是一本由谢希仁编写的中文版PDF书籍,深入介绍了网络层、运输层、应用层等关键概念和技术,并且系统地阐述了计算机网络领域的发展和原理体系结构,为读者提供了对计算机网络的全面认识。在网络层方面,本书详细介绍了IP协议及其相关技术,包括路由选择
查看计算机二级c语言程序设计题库1.62M282人在用计算机二级c语言题库软件是科慧尔软件官方开发的一款二级c语言考试系统,该系统按照最新《全国计算机等级考试二级C语言程序设计考试大纲》研发而成,拥有考试大纲、同步训练、测验评析和模拟考试四大栏目,可以帮助广大考生更好的掌握二级c语言程序设计,从而更好的通过
查看三级网络技术无纸化考试模拟软件43.29M678人在用 三级网络技术无纸化考试模拟软件是由未来教育出品的一款独立运行,功能强大的计算机三级网络技术考试模拟软件。该软件完全按照《全国计算机等级考试最新考试大纲》研制而成,提供考试题库、错题重做、模拟考场等功能,界面全真模拟,自动评分、详尽解析,考试环境与真
查看三级数据库无纸化考试模拟软件33M348人在用三级数据库无纸化考试模拟软件是由未来教育推出的一款界面简洁,功能全面的三级数据库电脑模拟软件,该系统专门针对三级数据库考试开发,收集了大量历届数据库考试专题,提供考试题库、错题重做、模拟考场等多种功能,资料全,功能多,操作方便,是一款非常全面,评价很高的
查看热门标签
网友评论0人参与,0条评论
最新排行
neat reader电脑版58.5Mv9.0.10 现在大量的电子书都是epub格式了,如果您需要在多台设备上阅读epub文件的话,那么这款neat reader电脑版你不容错过,这是一款跨平台的epub阅读器,它支持Windows、Mac、Android、iOS、以及浏览器等多个平台,并且支持在多
查看几何公差设计问答电子书11.44M官方版 几何公差设计问答由刘巽尔编著,本书主要以问答的形式介绍了几何公差的基本概念、在图样上的框格标注方法、几何公差带的基本原理以及理论正确尺寸、位置度公差、注出几何公差值、一般几何公差等有关标准的基本知识及其应用技术。应用对象是中、初级机械科学与工程技术
查看现代编译原理c语言描述18.5M阿佩尔pdf扫描版 编译器的设计与实现是一种实践性很强的工程,作为讲述编译器实现方法的编译原理课程,既需要讲述理论和原理,也离不开具体的实践,如何才能更好的学习和掌握呢?这里小编推荐广大学者阅读现代编译原理c语言描述,这是一本c语言编译原理课程的教材,由阿佩尔、金斯伯
查看css3专业网页开发指南72.75Mpdf高清扫描版css3专业网页开发指南是一本介绍css3网页开发的技术型指南图书,由英国著名Web前端开发工程师Peter Gasston编著。本书主要将CSS3规范中枯燥的技术语言提炼为平实的话语,向你展示了目前使用CSS3所有主流浏览器中能实现的各种效果,并通过真
查看android板级支持与硬件相关子系统141.16M android板级支持与硬件相关子系统是一本板级支持与硬件相关子系统书籍,由韩超编著。本书特别选定了Nexus One、Nexus S、Galaxy Nexus等几款手机作为参考平台。其中一个很大的优点就是以上几个平台都是Google认定的,具有典
查看HTML+CSS网页开发技术精解61.4M吴玉中pdf扫描版 HTML+CSS网页开发技术精解是一本html和css语言的开发书籍,由吴玉中等人共同编著。本书内容丰富翔实,涵盖了HTML和CSS大部分常用元素和属性。并且作者使用典型实例,用图解方式诠释每个语法的具体使用方法。还全面讲解CSS控制页面表现的方法
查看新手学html5移动开发pdf49.5M扫描版 新手学html5移动开发:面向iOS和Android平台是一本面向ios和安卓平台的HTML5学习教材,由英国程序员尼克松编著。本书内容包括了如何使用标准的web技术在苹果公司的ios和谷歌公司的android设备上创建界面美观的网站,web应用程
查看AJAX安全技术下载pdf高清版44.17Mpdf高清版 AJAX安全技术是一款pdf高清版的电子图书,本书对AJAX安全开发领域进行了严谨、彻底的探讨,系统地分析了当今最危险的AJAX漏洞,用现实中的代码阐述了大量关键性的安全理念,并对实际中的案例,例如MySpace的Samy蠕虫病毒,进行了详尽分析。
查看你早该这么玩Excel25.86Mpdf完整版 你早该这么玩Excel pdf完整版,己做好全部的书签,即下即用。本电子书讲述的都是日常工作中常遇到一些Excel问题,通过最简单的方法,解决excel问题,帮助办公人员提高工作效率。另外软件包中附带了pdf阅读器,请自行下载! exc
查看一个app的诞生:从零开始设计你的手机应用75.48MCarol 炒炒 pdf扫描版 一个app的诞生:从零开始设计你的手机应用是一本APP开发流程详解书籍,由Carol 炒炒和刘焯琛共同编著。本书主要呈现的就是一个APP从无到有的过程,从市场调研、竞品分析开始,到设计规范、交互设计、视觉设计、流程管理、开发实现、服务设计、跨界融合
查看交互设计沉思录(原书第2版)54.38Mpdf高清扫描版交互设计沉思录pdf顶尖设计专家Jon Kolko的经验与心得(原书第2版)是一本交互设计领域的扛鼎之作,由交互设计领域的思想领袖JonKolko所著,完美地将当代设计理论和研究成果融入交互设计实践中,将对交互设计的阐述和分析推向了新的高度,为整个领域带
查看SQL Server 2008高级程序设计99.46MPDF中文版SQL Server 2008高级程序设计是一本pdf中文版的高清电子书,全书首先介绍了sql2008的新功能,然后在更详实的示例代码的引导下全面深入地展开论述,讨论了如何编写复杂查询,构建各种数据结构以及提高应用程序性能,还讲述了如何管理高级脚本和数据
查看python项目开发实战 第2版13.23Mpdf扫描版 python项目开发实战 第2版是一本Python项目开发流程实战手册,由日本BePROUD股份有限公司编著。本书的内容全部基于python开发事实,全部都是BeProud员工实际尝试、实践过的,可以给读者提供一些能实际应用且行之有效的知识,读过本
查看