华人双雄改变数据库一体机历史:一个巧用“细胞”系统,一个让Teradata拿到早期融资
数据库机设想的最早提出者是丹尼尔·斯洛特尼克Daniel Slotnick1。而真正将数据库机推进到完整设计阶段的是两位华人学者——苏岳威Stanley Y. W. Su和萧开美David K. Hsiao。01.最初构想来自并行计算的畅想图1 丹尼尔·斯洛特尼克斯洛特尼克见图1早年曾在数学大师冯·诺伊曼领导的普林斯顿高等研究院项目中工作那是1952年前后彼时他不过二十出头。在与冯·诺伊曼的日夜交流中斯洛特尼克萌发了“处理器阵列”Processor Array的构想——即让大量处理器并行工作而不是依赖单一的串行计算。1954年斯洛特尼克离开普林斯顿后继续在纽约大学库朗研究所攻读应用数学博士学位于1956年获得博士学位。此后他加入了IBM位于纽约州波基普西的开发实验室开始将并行计算的想法变为现实。1965年斯洛特尼克重返学术界在伊利诺伊大学香槟分校启动了震撼业界的ILLIAC IV项目并担任其主任。ILLIAC IV是世界上第一台大规模并行计算机但其运行速度在1981年关闭之前的约八年间依然位居全球最快。正是在主导ILLIAC IV的研究过程中斯洛特尼克敏锐地意识到并行处理的思想同样可以被移植到数据库领域——如果能让存储器的每个磁道2都配备一个“小脑”就可以在数据流动到主机之前在本地完成大量的过滤和搜索。斯洛特尼克于1970年在论文《逻辑处理与每磁道设备》Logic per Track Devices中正式提出了将逻辑处理与存储设备的读/写磁头相关联的想法。他设计的基本动机是能够在大规模存储单元上直接搜索数据库从而限制需要传输到主机进行进一步处理的数据量——这一“近数据计算”Near-Data Processing的理念在半个世纪后依然是现代数据库一体机的技术基石。斯洛特尼克的想法由詹姆斯·帕克James Parker、纳夫塔利·明斯基Naftaly Minsky和贝赫鲁兹·帕哈米Behrooz Parhami等科学家进一步发展。尽管这些努力均未产生数据库机实现的全面提案但为后续工作提供了思想源泉。1 丹尼尔·斯洛特尼克Daniel Slotnick于1931年11月12日出生于纽约市在哥伦比亚大学学习数学1951年获得学士学位1952年获得硕士学位。1952年毕业后他加入了位于新泽西州普林斯顿高等研究院的冯·诺伊曼领导的电子计算机项目组。正是在这个开创性的项目中他学习了逻辑和硬件设计的基础知识并与计算机领域建立了持久的联系。也正是在这里他产生了关于集中控制并行计算机的最初构想。1954年斯洛特尼克离开普林斯顿继续深造于1956年在纽约大学库朗研究所获得应用数学博士学位。在普林斯顿大学担任一年研究助理后他加入了位于纽约州波基普西的IBM开发实验室。1965年他重返学术界启动了ILLIAC IV项目并担任其主任。ILLIAC IV在伊利诺伊大学设计、商业化制造并安装在NASA其运行速度达到每秒约三亿条指令。斯洛特尼克于1962年获得AFIPS奖1965年担任卡内基梅隆大学的年度梅隆讲师并于1976年当选为IEEE会士。斯洛特尼克于1985年10月25日去世。2 磁道是盘片上的一个同心圆环数据轨迹。斯洛特尼克的概念是在每个这样的圆环磁道上配备独立的处理逻辑使得数据可以在存储层直接进行筛选和处理而不需要全部传输到主CPU。这种细粒度的并行处理架构是数据库机Database Machines和近数据处理Near-Data Processing的早期先驱。由于一个柱面包含多个磁道每个盘面一个如果所有磁头对齐可以同时读取一个柱面的所有磁道实现并行处理。02.细胞系统苏岳威与CASSM数据库机图2 苏岳威苏岳威见图2是美国佛罗里达大学计算机与信息科学与工程系的荣誉特聘教授。他于1968年在威斯康星大学麦迪逊分校获得计算机科学博士学位。彼时数据库理论还处于萌芽期——埃德加·科德Edgar F. Codd提出关系模型的那篇划时代论文A Relational Model of Data for Large Shared Data Banks甚至要等到1970年才发表。在这样一个理论尚未完善的时代苏岳威就已经开始思考一个更为前沿、更为困难的问题如何从硬件层面重构数据库的处理方式1973年苏岳威与合作者乔治·科普兰George P. Copeland和利波夫斯基G. Jack Lipovski联合发表了数据库机历史上的里程碑式论文——《CASSM的体系结构一种用于非数值处理的细胞系统》The Architecture of CASSM: A Cellular System for Non-numeric Processing。这篇论文发表于第一届国际计算机体系结构研讨会ISCA 1973是当时学术界最顶级的硬件研究舞台。CASSM是第一个完整的数据库机设计。它的全名是Context Addressed Segment Sequential Memory上下文寻址段顺序存储器提出了一种“面向非数值信息处理的存储与计算体系结构”专门用于解决传统计算机在处理非数值数据如大规模文本检索、数据库查询时的效率瓶颈。CASSM的设计理念令人耳目一新采用固定磁头磁盘作为存储介质每个读/写磁头关联一个简单的处理单元形成“存储-计算”深度耦合的细胞阵列。所有处理单元由单个主控处理器统一协调负责与主机计算机通信、向各处理单元分发指令并整理和处理中间关系和结果关系。系统可以支持网络模型、层次模型和关系模型三种数据模型体现了极高的前瞻性。CASSM的精妙之处在于数据不再需要“跋山涉水”赶到CPU面前才能被处理而是在存储介质旁就能完成大部分过滤和运算大幅削减了主机与存储之间的数据搬运量。苏岳威在1975年的VLDB大会上再次发表了针对超大型数据库的CASSM改进方案3进一步巩固了其在数据库机领域的学术地位。1977年至2005年间苏岳威在佛罗里达大学创立并长期担任数据库系统研究与发展中心Database Systems Research and Development Center主任将CASSM的思想不断深化与推广。CASSM系统是第一代数据库机的雏形对后来的RAPRelational Associative Processor关系联想处理器和RARES系统设计产生了深远影响被学界公认为数据库机领域“架构思想期”的奠基之作。RAP由加拿大多伦多大学的埃尔汗·奥兹卡拉汉Erhan Ozkarahan等人于1975年提出。RAP也是一种背端数据库机采用与磁道关联的“细胞处理器”结构直接在磁盘旁处理关系运算。CASSM、RAP与DBCDatabase Computer数据库计算机共同构成了1970年代数据库机研究的“铁三角”它们的思想奠定了此后数十年商业数据库一体机的理论基础。3 Stanley Y. W. Su and G. Jack Lipovski, CASSM: A Cellular System for Very Large Data Bases, Proceedings of VLDB 1975, Framingham, Massachusetts, 1975. Semantic Scholar03.数据库机萧开美的超大规模数据处理探索图3 萧开美早期的技术研究大多数都是在国家安全的驱动之下做出的。萧开美见图3的研究工作和职业生涯就与此紧密相关。萧开美于1968年获得宾夕法尼亚大学计算机与信息科学博士学位。他是该校这一领域的第一批博士生也是第一位在计算机科学领域获得博士学位的华人。他的博士论文是关于数据库保护和访问控制的是该领域的第一篇论文。他也因此成为了数据安全和访问控制领域的专家。1970年代初萧开美加入俄亥俄州立大学Ohio State University开始专注于计算机系统架构与数据库技术的交叉研究。彼时摩尔定律的“红利”已经开始显现但数据量的增长速度更快。面对这一矛盾萧开美敏锐地意识到仅靠软件优化已难以为继必须从硬件体系结构上重新思考数据库的处理方式。当时数据库领域的前沿是如何处理超大规模的数据量。1975年萧开美在美国国防高级研究计划局DARPA的支持下创立和发起了VLDB会议开始研究超大型数据库Very Large Databases的数据处理问题。处理超大型数据库事实上就要研究如何在软件和硬件之间进行平衡。在美国海军研究办公室Office of Naval Research的资助下萧开美于1975年左右开始系统性地研究数据库机。随后他在1976年以惊人的速度和深度完成了一系列奠基性研究报告。图4 萧开美完成于1976年的报告1976年9月至12月萧开美先后完成并发布了三卷本重量级报告——《数据库计算机架构》The Architecture of a Database Computer如图4所示。三卷分别对应DBC的整体架构、存储与检索子系统以及大容量存储器设计4。这套技术报告后来被他整理为Collected Readings on a Database Computer (DBC)一书出版成为数据库机领域最重要的参考文献之一。同年11月他还发表了论文Database Computers: A Step Towards Data Utilities从更宏观的视野阐述了数据库计算机对未来信息社会的战略意义。萧开美是DBC概念的早期提出者之一他的DBC设计雄心勃勃所构想的数据库机挑战的存储容量是10GB。今天的读者看到这个数字或许会莞尔但要知道在1976年硬盘的容量是以MB来量度的10GB在当时已经是超大规模的数据库足以令当时所有的数据库软件都“望洋兴叹”。更重要的是这仅仅是一个开端——正如我在前面文章中所介绍的此后的一体机是以TB、PB、EB乃至ZB为愿景的存储容量的量级提升了数百亿倍而“让计算靠近数据”的核心哲学从未改变。4 David K. Hsiao, The Architecture of a Database Computer (three-volume technical report), The Ohio State University, OSU-CISRC-TR-76-1, OSU-CISRC-TR-76-2, OSU-CISRC-TR-76-3, September-December 1976. 收录于Hsiao (ed.), Collected Readings on a Database Computer (DBC), 1979.在1977年的VLDB大会上萧开美发表了Database Machine Architecture in the Context of Information Technology Evolution进一步阐述了从数据库机到数据库计算机的历史必然性。与此同时《俄亥俄州立大学校报》也在1977年5月报道了萧开美的工作标题为《教授发明数据库计算机》Prof invents database computer称这一发明“将有一天让传统计算机走向过时”。这种夸张的预言虽然并未完全成真但确实折射出彼时学术界对数据库专用硬件的强烈期待。图5是《俄亥俄州立大学校报》的报道全文其主要内容如下俄亥俄州立大学的一位教授和他的一名前学生发明了一种计算机这种计算机有朝一日可能会使传统计算机走向淘汰。这台新计算机被称为“数据库计算机”由计算机与信息科学系教授萧开美和其前学生、现任职于IBM公司的Richard I. Baum共同设计。萧教授表示这台新计算机专门为存储和处理大量信息而设计而非用于数值运算。他说“过去人们将计算机作为一种计算工具使用也就是说通过数字运算得出同样是数字的结果。做那类工作你需要一台运算速度非常快的计算机但它并不需要很大的‘在线’存储容量。”近年来人们逐渐转向一种新型的计算方式——这种方式要求计算机不仅能够存储信息还能在用户需要时随时调取。保险公司用这类系统来保存被保险人的档案航空公司用它来管理订座名单。这类计算需要一台拥有非常大的“在线”存储容量、同时响应速度与传统计算机相当的计算机。萧教授表示通过将成熟技术与新兴技术相结合他的计算机不仅能满足上述两项要求还能提供一套更为完善的机制用于保护计算机中存储的敏感信息。他指出传统计算机无法将同一计算机文件的不同部分分配给不同用户使用。图5 俄亥俄州立大学校报报道与美国海军的合作带来了丰厚的科研成果。在这一时期萧开美成为了数据库机领域的绝对权威。学术上的进展也悄然改变了萧开美的人生轨迹1982年他加入了美国海军研究生院Naval Postgraduate School在那里工作直至退休。这一学校的军方背景在后来深刻影响了中国学者赴美访学的去向——这是后话我将在后面的篇章中详述。04.产学研用推动Teradata创立融资的专刊1975年萧开美还作为创始主席发起成立了IEEE计算机学会数据库工程技术委员会Technical Committee on Database Engineering, TC/DBE。这个委员会的创始成员阵容堪称豪华包括查尔斯·巴赫曼Charles Bachman网状数据库模型之父、1973年图灵奖得主、埃德加·科德E. F. Codd关系数据库之父、1981年图灵奖得主、王佑曾Eugene Wong加州大学伯克利分校教授Ingres数据库共同发明人、姚诗斌S. B. Yao马里兰大学教授等数据库领域的顶尖学者。图6 萧开美卸任TC/DBE主席前的回顾致辞1977年6月萧开美卸任TC/DBE主席前在Data Base Engineering上发表了回顾致辞如图6所示。他说大家在初始阶段即达成共识“技术委员会应与其他组织合作主办技术活动应发挥成员在数据库研究与开发方面的优势例如工程应用层面并专注于新兴数据库领域。”在这一期杂志上萧开美还发表了其前沿探索的署名文章——《数据库计算机为何需要如何实现》Data Base Computer - Why and How。在这篇文章中萧开美开宗明义地回答了时至今日仍然是很多人关心的问题当大多数基本功能已可通过软件实现时为何还需要用数据库机一、为了可靠性数据库管理软件的复杂度和规模与日俱增。规模庞大、结构复杂的软件系统容易出现故障而硬件的功能验证、设计验证和生产验证方法早已成熟。将基本数据库管理功能集成到硬件中不仅能提供更可靠的基础功能还能降低软件复杂度、缩小系统软件规模从而提升整体软件可靠性。二、为了性能传统计算机系统并非为数据库管理而设计。将数据库管理功能移交给专用硬件处理可显著改善响应时间。冯·诺伊曼型计算机也可因此回归其本职——程序编制与执行——并有效利用释放出的CPU时钟周期。通用计算机与专用数据库计算机均可由此实现高性能运行。在20世纪60年代当时制约数据库计算机实现的主要障碍是数据库研究的不成熟和硬件技术的不足。而随着技术的进步这些制约条件逐渐消除使得数据库计算机的实现成为可能。萧开美为数据库计算机的设计列下了基本原则包括1、大存储容量数据库存储的在线容量应在10⁹10¹⁰字节范围内结构信息设备的在线存储容量应在10⁷10⁸字节范围内。2、智能检索与更新访问频繁的结构信息需要一套速度更快的内容可寻址存储体系。为此新兴的电子存储器与微处理器是可能的解决方案。3、创新的体系结构方案由于数据库计算机是专用机器其设计与配置需要非传统方法。设计与配置须考虑三个因素(a)功能专用化(b)利用新技术(c)兼容新功能。4、支持多数据模型当前领域内至少存在三种主流数据库管理系统分别为层次型、网络型和关系型新型计算机必须支持这三类数据库管理功能。5、无需依赖遥远的技术对高性能、低成本数据库计算机解决方案的需求是当下迫切的。因此任何数据库计算机设计都不应依赖尚在遥远未来的技术。萧开美在1977年写下的这些文字直至今天仍然是数据库一体机设计的重要参考。例如他对多数据模型支持的提案就激励了云和恩墨zData产品不断向通用数据库支持进行创新并且在业内率先实现了“多元数据库一体机”架构。图7 《IEEE计算机》杂志数据库机专刊此外萧开美还在TC/DBE的旗帜下策划组织了《IEEE计算机》杂志的数据库机专刊如图7所示系列并在历届国际数据库机研讨会上大力宣传推广数据库机理念。这本专刊产生了出乎意料的深远影响——它甚至直接推动了一家数据库机公司的融资成功。这家公司就是1979年7月13日在加利福尼亚州布伦特伍德Brentwood成立的Teradata。Teradata由杰克·谢默Jack E. Shemer、菲利普·尼奇斯Philip M. Neches等人共同创立。Teradata的创业理念源自加州理工学院的计算机研究成果以及谢默在施乐帕克研究中心Xerox PARC和花旗银行先进技术组工作期间的构想既然每家大银行都有庞大的交易数据库为何不专门为它们打造一台“数据处理专机”萧开美曾多次在出差途中与谢默相遇。谢默的公司即Teradata就在洛杉矶机场附近萧开美几乎每次途经都会碰到他。按照萧开美后来的回忆谢默当时“正在和一名空姐约会”谈笑风生意气风发。谢默对萧开美说他把那本《数据库机专刊》买了一批分发给他的投资人告诉他们“有一种东西叫做数据库机。它来了它来了是萧开美说的。我想创办一家公司向大型公司销售这种机器因为他们有非常大的数据库比如纽约的花旗银行。”这段话成了Teradata融资路演的关键推销词。一位数据库机领域权威学者的学术背书让那些商界投资人看到了数据库专用硬件的巨大市场潜力。Teradata由此完成了早期融资并于1984年推出了标志性产品DBC/1012Database Computer/1012——一台基于大规模并行处理架构的关系型数据库机。DBC/1012的第一台测试系统交付给了富国银行Wells Fargo Bank而花旗银行则成为这款机器的重要早期客户。1986年DBC/1012被《财富》杂志评选为“年度产品”在数据仓库时代正式到来之前它早已悄然驻扎在美国最大金融机构的机房之中。作为回报Teradata后来每年都向VLDB基金会捐赠500至1000美元的赞助经费支持这一国际学术会议的持续发展。一本学术专刊一次机场偶遇改变了整个行业的走向这大概是萧开美当初策划组织那本IEEE专刊时始料未及的。05.创新意志是开始还是停止萧开美的工作极大地推动了数据库机领域的发展他也成为这个领域当之无愧的先驱人物。然而产学研的结合就在于此学术界的研究成果最终要在工业界变成现实驱动社会应用进步成为真正的生产力。萧开美看到Britton-Lee和Teradata已经开始投入数据库机的生产实践就结束了数据库机的研究。他甚至还劝阻了一家公司进入相同的领域在回忆中他谈到“我还去洛杉矶访问了另一家数据库公司他们试图使用与Britton-Lee相同的主意在一台独立的小型计算机上重新实现SQL。我对负责人说‘你不应该这样做。首先你已经有一个Britton-Lee这样的既定竞争对手。他们已经有一个系统正如你想要做的那样运行。等到你的系统完成时还不清楚你的系统是否会比Britton-Lee的系统表现得更好。从功能和逻辑上讲你正在做完全相同的事情——SQL事务仅此而已。所以为什么你想在不同的小型计算机上做同样的事情呢此外开发成本至少需要一百万或两百万美元。你需要至少六个月到一年的时间来完成软件。’我想他们下周就关闭了公司解雇了所有人。”萧开美的观点非常明确而且充满真知灼见那就是如果你的产品毫无创新之处只是在重复先行者的路线并且失去了先发优势你要想好是不是还要开始。这一警句在半个世纪后的今天对于众多正在进入某个赛道的创业者仍然有振聋发聩的警示意义。云和恩墨作为这些华人先驱创新意志的继承者也一直在思考如何通过创新让数据库一体机的道路可以更持久地为用户创造价值。从自研zStorage开始云和恩墨就一直坚持软硬解耦从而让用户可以透明地获得成本优势。其次云和恩墨将zData打造成了通用数据库一体机以平台化方式支持通用数据库产品大幅简化用户IT基础设施的管理复杂度。但是这些还不是最关键的关键在于性能密度也就是说以同样的成本能够为用户带来多少的价值输出。萧开美认为数据库机的两大价值在于可靠性和性能。云和恩墨遵循萧开美的先驱洞察持续在可靠性和性能上进行研发投入。2025年9月云和恩墨发布了zData X 3.5版本。这一版本在3个存储节点的配置下4KB随机读IOPS已达1100万实现了行业引领性的性能指标相较传统存储方案实现了数量级的性能跃升彻底将数据库的I/O瓶颈豁然解开如图8所示。此外通过分布式块存储软件的数据压缩技术zData X可实现2至10倍的数据压缩比且几乎不影响I/O性能这切切实实地为用户削减了存储成本。图8 zData X的I/O性能优势数据库机要解决的核心挑战正是I/O能力的不足——当CPU按照摩尔定律高速进化时计算机系统的瓶颈转移到了存储上而zData正是要通过持续优化与集成创新重新将计算的瓶颈推回到CPU端——这正是先驱们50多年前就构想的那条披荆斩棘的探索之路。06.永无止境从数据库机到数据库一体机从1970年斯洛特尼克的“每磁道逻辑处理”构想到1973年苏岳威的CASSM细胞系统到1976年萧开美的DBC三卷本架构研究到1981年Britton-Lee推出的第一台商用数据库机IDM 500再到1984年Teradata的DBC/1012数据库机经历了从理论到实践的第一次“大航海”。进入2000年代随着互联网数据量的爆炸式增长Oracle Exadata于2008年横空出世以软硬件深度集成的方式重新定义了数据库一体机。而在中国云和恩墨沿着先驱者的足迹以zData走出了一条软硬解耦、通用平台、高性能密度的自主创新之路。历史证明每一代数据库机的革命都是在上一代技术的局限与下一代技术的可能性之间由那些敢于想象、敢于坚持的人一点一点凿出来的。这条路还远没有走到终点。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2498552.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!