专访IBM DB2专家：XML引发数据库二次革命？

　2007-11-04 21:40:30　来源：WEB开发网　　　

核心提示：编者按：Don Chamberlin 是IBM院士，还是关系数据库标准化查询语言（SQL）和Quilt语言（后来演变为XQuery查询语言的基础）的核心发明者之一，专访IBM DB2专家：XML引发数据库二次革命？，在本次访谈中，他向大家介绍了IBM的历史、XQuery规范与xml(标准化越来越近了)数据模式、xml(

编者按：Don Chamberlin 是IBM院士，还是关系数据库标准化查询语言（SQL）和Quilt语言（后来演变为XQuery查询语言的基础）的核心发明者之一。在本次访谈中，他向大家介绍了IBM的历史、XQuery规范与xml(标准化越来越近了)数据模式、xml(标准化越来越近了)数据库的性能和安全。另外，还邀请到复旦大学计算机科学与工程系教授、博士生导师周傲英老师，探讨中、美数据库教育的差异，以及如何学好数据库开发技术。

专访IBM DB2专家：xml(标准化越来越近了)引发数据库二次革命？（图一）

IBM DB2 基本性能调整
IBM DB2 日常维护汇总（三）
IBM DB2 日常维护汇总（六）
IBM DB2 日常维护汇总（九）
IBM DB2 日常维护汇总（五）
IBM DB2 日常维护汇总（八）
IBM DB2 日常维护汇总（一）
IBM DB2 日常维护汇总（四）
IBM DB2 日常维护汇总（二）
IBM DB2 UDB Stinger简介(1)

XQuery规范与xml(标准化越来越近了)数据模式

熊建国（主持人）：各位网友大家好，今天有幸请到IBM院士、IBM阿马丹（Almaden）研究中心高级工程师Don Chamberlin先生和复旦大学的周傲英老师做客IT168，与大家交流。

　 IT168是专业的传播媒体，2000年我们成立了企业服务群组，定位为企业用户提供一流权威的咨询，IT168有中国最大的一个社区，即ITPUB，有65%会员是数据库开发人员和管理人员。

　　我们知道Don Chamberlin先生是SQL语言的发明人，目前在W3C组织中从事XQuery规范的制定和研究工作。Don Chamberlin先生从事数据库据相关的研究工作已经有30多年的，可以说是目睹了数据管理几十年的发展和变迁，下面我们首先请Don带我们回顾一下这些历史？

Don Chamberlin：非常感谢各位，能有机会来到这里感到非常荣幸。我在IBM工作差不多有30年的历史了，最大的兴许爱好就是研究数据库技术与研究数据库的历史和现在。

专访IBM DB2专家：xml(标准化越来越近了)引发数据库二次革命？（图二）
Don Chamberlin 先生

　数据库已经成为普通人生活中的一部分，如果大家去银行取钱、乘坐飞机，或者去商店里面购买物品，都不可避免的要和后台的数据库打交道。数据库虽然已经渗透到了生活各个方面，但从整个产业来看，数据库产业现在还是一个非常年轻的产业，只有40-50年的历史。

　在过去的40---50年里，数据库发展受到很多创新型想法的影响，接下来会总结一下数据库50年产生的重要思想。

　最早的电子化的数据是来自于美国的统计局，大概每隔十年左右的时间，国家会对工作的状态，家庭人员结构做一个全国性的普查和统计。但是有挑战性的是，虽然法律要求每十年做一个全国性的统计和普查，但是要对收集过来数据进行处理的时间往往会超过10年，所以每到下一次普查，上一次普查的数据还没处理完，所以国家需要一个新的方案来解决这个问题。

　麻省理工的教授霍列瑞斯博士发明一种方法，就是我们最早熟悉的打孔机，把数据的结构用打孔机读下来，然后加快数据处理的过程。发明这个想法的霍列瑞斯博士，后来申请这个专利，然后开了一家公司。这家公司与另外一家公司在1924年合并了，这就是IBM公司。

　从最开始IBM创立的时候就可以看到，IBM整个历史从一开始就和信息、数据的应用密切联系在一起。人们开始用打孔机记录数据一直延续到20世纪40年代，从现在观点来看，这是一个有非常悠久历史的产品，因为一个产品能超过15年的历史，应该算是一个非常好的产品。

　但是这种打孔机的卡本身有一个缺陷，它只能按照一个方法读取，不能随机读取，这导致第二个重要思想产生，就是采用磁盘的技术，使得对数据的读取可以随机读取。

　随着磁盘的产生，使得我们对数据的管理可以走向集成化的管理方式，使数据不再属于单个具体的应用，同时提供集中和管理模式，集中的备份等相关的内容。最早的数据库系统我们称为嵌套式数据库，它基本的原理，你要获取数据要编写一段代码，这段代码读取很多指针的链条，然后把数据找回来。很多那个时代的公司基于这样一个原理构建输出的系统，IBM是其中一家，我们基于这样一个技术构建了IBM的xml(标准化越来越近了)的系统。

　另外一次对数据库影响深远的变化，由E.F.Codd博士，也是IBM院士，提出的关系型数据库理论。Codd的想法是希望构建这样的系统，不是让用户告诉计算机如何找到这个信息，而是让用户把想找什么样的信息告诉这个系统，系统自动找寻。在关系型模式下，数据是放在表里面一系列的值，用户通过高层的语言去描述他想去找什么样的数据，而不是去描述如何找到这样的数据。

　在这样一种设计下，比较重要的是物理存储的方式可以改变，用户可以自己添加数据或删除数据，这些都不影响应用访问数据的模式，这个想法最后称为数据独立性的想法。一开始人们认为这样的想法不现实，这里面最主要的原因，大家认为很难构建这样一种编译系统自动找寻访问数据的路径。我参与了IBM最早期关系型数据库的尝试——内部研究计划叫“Record System” ——去实现这个想法。我和Codd以及其他早期的研究人员一起共同构建一个实现关系型理论的系统，这里面的重点是侧重构建基于成本的编译器，可以按照语言的描述找到数据。这方面的研究产生的技术最后导致关系型数据库一系列产品的产生。

　在过去20年里，关系型数据库在全球范围内非常广泛的被应用，大多数的商业型数据被存储在关系型数据库中。但是我们现在正在另一次大的变革门口，会改变整个对信息系统的管理，这样一种变革的动力来自于互联网的发展，使得信息的量以及信息的类型和复杂度和以前大大不同。

　在传统的关系型数据库里，对数据的存储是片断式的信息存储，银行的账号、乘坐航空机票的预定以及产品信息都是要按照同样的结构来进行存储。但是由于互联网的发展，使得上述的情况发生了很大的变化，比如电子病历或健康档案，每个人每种病的描述情况都不一样，治疗的历史以及拥有医疗保险的情况都不同，采用传统的用表格结构化的模式来描述非常大差异型数据就面临非常巨大的挑战。

　在互联网上大多数的信息都通过HTML语言描述，但是HTML在标签上有一些限制，不能够把很丰富的数据内容完全涵盖。未来会发展非常快的一种数据模式就是xml(标准化越来越近了)，它是对HTML这种标准的扩展，使得他们在标签上不再有固定的限制，可以很大程度的扩充很多新的类型的标签。

　随着越来越多信息会采用xml(标准化越来越近了)格式，这就产生强烈的需求，需要针对这种数据提供查询的语言，在xml(标准化越来越近了)信息集里找到相应的信息。W3C是全球负责互联网相关标准的组织，他们建立了一个工作组来专门制定针对xml(标准化越来越近了)查询的语言标准。在参加这个工作组里面的人员包括从很多大的公司人员，以及一些主要的大学。

　我代表IBM参加了这个工作组，在开发一种有点类似SQL的语言，但比传统理解的SQL语言更灵活更有扩展性。在今年1月份的时候，第一个版本的查询语言叫XQuery 1.0已经被采纳。现在这个工作组还在继续工作，在现有XQuery版本基础上增加很多新的功能，从SQL语言标准组产生有25年的历史，现在XQuery两个标准都会存在。现在我们所处的时代从数据库的角度来看是非常令人兴奋的时代，从数据库的技术和这方面的演进会对整个社会生活产生深远的影响。