第7章 谷歌的数据中心革命

驱车行驶在84号州际公路上,穿过青葱翠绿的哥伦比亚大峡谷,到达古雅的俄勒冈州达尔斯镇。这一路的行程仿佛驶入了迷人的美国历史。透过北美黄杉丛,便可以看到闪闪发光的瀑布划过古老陡峭的玄武岩山脊。路标将你带到美洲土著博物馆,那里到处都是羽毛和皮革装饰的部落遗迹。农庄和渔场,山坡上的葡萄园,雄鹰和鱼鹰迎风飞翔。

远处的地平线上,距离此地仅半小时的车程,矗立着积雪覆盖、熠熠生辉的胡德山。这里有11座冰川,是6条河流的源头,是四季滑雪的胜地。“我真想在这里住下。”我转身看了一眼通往波特兰的公路对自己说。硅谷和旧金山之间的收费公路伸向远方。两相对比,哥伦比亚的山谷闪耀着森林般梦想的光芒。

高速公路的尽头,一座废弃的铝厂,矗立在贫瘠的山坡上。哥特式的门架和洞穴般的熔炉空空荡荡地伫立在那里,见证着工业力量的衰落和辛酸过往。[42]

达尔斯这个名字来源于18世纪的航运俚语,指的是哥伦比亚河岸附近的激流和险滩。那个时候当地的工业主要是用独木舟向外运送海狸皮。现在海狸安然自得,铝厂也基本废弃了,但达尔斯却正在蓬勃地发展。2005年谷歌在大坝以西6英里的河边买下了30英亩的土地,建起了该公司的第一家自主运营的数据服务中心。达尔斯一跃成为世界新体系的先锋。

在9年的时间里,园区的面积增加了两倍多。2014年,谷歌(以“莫雷纳工业”的名义)从深陷困局中的西北铝业公司手中买下了74英亩的土地。谷歌在这个小镇的总投资接近20亿美元(囊括在其全球投资的290亿美元之中)。谈判过程中,谷歌以“隐形”和“律师”作为伪装,事成之后又进行慷慨的慈善捐款,这一系列做法让这座数据中心整体免除了财产税。

数据中心严格保密。大门将那些没有正式通行证和没能通过机场式毫米波全身扫描仪的人拒之门外。为了处理海量的数据,谷歌的达尔斯城堡拥有3个1000万立方英尺的玻璃幕墙仓库,安装了7.5万台电脑服务器。每台服务器由光纤线路相连,排列安置在高耸的架子上。[43]这些服务器,尽可能紧密地挤在一起,以减少数据传输的延迟。看起来就像一个巨大的未来图书馆,书架上水平放置着闪闪发光的书籍。

四季常青的秘境、巍峨的大山和永不停止的滑雪胜景在其中发挥了一定的作用,但让这里成为数据中心主要源于其他两个原因。一是因为连接华盛顿角港的光纤枢纽,距达尔斯西北200英里,就在雷尼尔山的另一侧。那里是“跨太平洋1号”(Pacific Crossing 1)大型电缆的沿海着陆基地。这个被其建造商盖瑞·温尼克命名为“跨太平洋1号”的工程是“跨越全球(Global Crossing)”项目的组成部分。该网络神经节点建造于2001年,用于处理640千兆位每秒(数十亿比特每秒)的光纤主网。10年后,其运行速度将得到12倍的提升,达到8.4万亿比特(每秒数万亿比特)。它跨越6000英里的太平洋,连接亚洲和美国。

一根透明的光纤蜿蜒着穿过小镇的主要建筑,通过诺亚网(NoaNet)连接更加庞大的互联网。诺亚网曾被认为是第二代互联网(Internet2)的最前沿标准节点。在乌尔斯·霍尔泽勒领导下,经过不屈不挠的努力,2017年谷歌的“云”在更先进的第三代互联网(Internet3)机制之下,新增了10个数据中心。

二是因为达尔斯大坝和它的18亿瓦发电站。1957年,美国陆军工程兵团在华盛顿州的克利基特和俄勒冈州的瓦斯科之间建造了这座半英里长的大坝,将达尔斯的激流变成了低补贴的廉价电力。电力曾经是炼铝的关键,现在则是计算的战略先导。实际上,谷歌并不是唯一一个依赖哥伦比亚河的硅谷巨头。哥伦比亚河提供的电力成本约为旧金山湾区电力成本的1/5。

大数据和巨大的“云”计算能力的凝聚是人类计算史上前所未有的壮举。这些机器因为在计算和转换的速度与密度,以及数据存储的大小等方面的优势,胜过其他机器,并从而获得对环境的控制。[44]零售、金融、保险和房地产等行业涌现出的新主导中心,其背后就是这类服务器在起作用。谷歌在这当中最具统治力(以盈利能力衡量,它可能也是东方金融的对手)。

描述集成电路增长能力的摩尔定律得名于传奇工程师戈登·贝尔,他也是数字设备公司于20世纪80年代在小型电脑虚拟地址扩展器(VAX)方面取得突破的关键人物。现在,他是微软的重要研究人员。[45]根据贝尔定律(Bell's Law),每10年就会出现一个新的计算机体系结构。与此同时,处理能力的价格降为10年前的1%。

你肯定还清楚地记得,个人电脑是横亘在20世纪两次经济危机鸿沟之上的王者。高贵的大型机计算机在20世纪70年代维持了IBM在信息技术领域的主导地位;小型计算机在20世纪80年代维持了数字设备公司和通用数据公司在客户端—服务器系统领域的统治地位。然而它们都被颠覆并逐渐消亡了。[46]

谷歌的云定义了当前的贝尔定律。20世纪90年代末,拉里·佩奇和谢尔盖·布林还都是在斯坦福大学盖茨中心进行非营利性工作的探索者。他们试图自己搜索那个15万亿字节(150-gigabyte)的互联网索引。那时,当我想用未来的神秘感震撼观众的时候,我就会用兆级(terascale,10¹²)来描述一个包含15万亿字节的内容,那是一个大到难以想象的网络。

谷歌的全球仓库就起源于这个曾充满未来感的太字节(terabyte)范式,只是现在它的操作环境动辄千亿兆(peta-scale)、千万亿(petaops)、每秒千万亿次浮点运算(petaflops)。“Peta”的意思是千万亿次幂(也就是10¹⁵)。巧合的是,它也让人联想到了“petere”这个表示“搜索”的拉丁语动词。如今,谷歌统治着一个由成千上万个千万亿字节(petabyte)组成的数据库。这个数据库每天都会因大量TB级的谷歌邮件、脸书页面、推特消息和视频而急速膨胀。这是每日都在无情增大的三角洲,每天的增量都比10年前的整个网络还要大。谷歌每天处理数十亿次的YouTube视频和超过35亿次的搜索,每年的搜索总次数超过1.5万亿次。该公司的内部带宽每年都在翻倍。截至2014年的6年里,其带宽增长了50倍,到2018年将再增加10倍。谷歌的运营主管霍尔泽勒表示,这个数字两年后还将再增加10倍。[47]

从达尔斯开始再到被全球复制,这个符合贝尔定律的机器是谷歌霸权的核心。这是在哥伦比亚河岸边发起的变革,显示着谷歌至高无上的地位。

早在1993年的某个午夜,时任太阳微系统公司(Sun Micro-systems)的首席技术官(CTO)的埃里克·施密特在办公室里写了一封电子邮件。信中这样描述未来:“当网络变得和处理器一样快的时候,连到网络上的电脑就会变得空空如也。”太阳微系统公司用一个简洁的短语宣传了这个概念——“网络即电脑”。但公司主管硬件的老板们没能领会施密特这句妙语的真意。这种转变的盈利方向是什么?“不是那些能制造出最快速处理器或最佳操作系统的公司”。当时,太阳微系统公司开发的SPARC工作站系列(Sparcstations)、简化指令集计算机(RISC)、Java虚拟机、Solaris操作系统(所有这些都在与正在崛起的业界巨头竞争)都要比微软和仍在崛起的IBM更胜一筹。不,施密特在他的午夜邮件中写道,利润将流向“拥有最好的网络、最好的搜索和最好的排序算法的公司”。[48]

我称之为施密特定律(Schmidt's Law)。施密特不是在一封午夜发出的电子邮件中胡写乱画的人,不久之后他就离开了这家公司。在担任诺勒有限公司(Novell)首席执行官一职后,他试图在犹他州建立最好的网络和搜索引擎。后来他加入了谷歌,很快就晋升为首席执行官。在那里,他发现自己被曾经预言的未来所吞没。当EXCITE(搜索引擎)、INKTOMI(Yahoo的搜索引擎)、ALTAVISTA(DEC)(搜索引擎)等竞争对手都在利用SPARC工作站系列和IBM大型机构建自己的网络的时候,谷歌则已经开始利用微处理器之星英特尔和硬盘之王希捷(Seagate)制造的廉价商品组件设计和制造自己的服务器了。

在2005年的一篇技术文章中,谷歌的运营总监霍尔泽勒解释了这其中的原因。他指出,高端处理器的价格“与它们的性能呈非线性上升”关系。也就是说,英特尔的高端微处理器在增量产出上的成本越来越高。这些芯片可能击中了被称为蒙迪之墙(Mundie's Wall)的东西。时任微软技术主管的克瑞格·蒙迪提出:

我们现在碰到了一堵砖墙。计算速度提升的关键是提高中央处理器(CPU)的时钟频率(以赫兹或每秒周期为单位的计算周期速度)。但是时钟越快能耗越大。要做到在不消耗过多电力的情况下增加时钟的频率,只能通过降低电压的方式。但是这种做法已经难以为继,因为世界早已经进入电子伏特时代。在这个时代里,不确定性占据了上风。若不能降低电压,就不能提高时钟频率,也就无法获得更高的功率。

加快时钟频率、减少散热,比扩展存储芯片中晶体管存储位更加困难。内存比微处理器操作增长得更快,速度更快的微处理器往往会在内存访问中出现卡顿。在拉里·佩奇的推动下,霍尔泽勒的解决方案有希望解决这一难题:用光纤将无数廉价的处理器并行地组装在一起,使之以光速运行。巧妙的新软件使众多处理器同时工作。这至少是通向可扩展系统的理论道路之一。在这个系统中,“物有所值”的理论依然可信。

今天看来,霍尔泽勒的架构正确体现了施密特的洞察力,也赋予谷歌全球的影响力。从阿斯本到达沃斯,再到戛纳的精英圈子里,到处都能看到施密特的身影,他的脸上总是挂着计算机科学家特有的微笑。

此次变局的关键一步是位于达尔斯的工厂,是施密特所称的“有史以来最好的计算机科学”的产物。施密特当时对分析师表示,谷歌通过建立自己的基础设施,而不是依赖商业数据中心,获得了“巨大的竞争优势”。

每一个时代,胜出的公司都是那些为了节约稀缺资源而不惜耗费富裕资源的公司——价格急剧下跌证明了这一切。谷歌业已挥霍了大量的数据存储和主干带宽。相反,它对于最宝贵的资源,即用户对延迟的耐心——用户等待网页或搜索结果的时间——却十分吝啬。

硬盘存储容量的持续激增使得摩尔定律看起来像是一场蟑螂赛跑。1981年,千兆字节的硬盘售价为50万美元,运行速度6兆赫的英特尔286处理器的价格为360美元。到了2018年,千兆字节的硬盘的成本不到2美分,而一个3000兆赫处理器的成本大约是3000美元。在美元汇率不变的情况下,加工的价格下降了大约500倍,而硬盘的价格已经下降了25万倍。按照这个粗略的衡量标准,硬盘驱动器的成本效益增长速度是处理器的500倍。

谷歌公司那些有成本意识的人绝不会把他们的仓库塞满硬盘。但磁盘存储的神奇进展掩盖了一个问题:单个磁盘的大小和密度越大,扫描它们获取信息的时间就越长。读取磁盘的小手臂赶不上处理器的速度。

谷歌的解决方案是部署大量的快速随机访问内存芯片。按字节计算,随机存储器(RAM)的费用是磁盘存储的100倍。工程师们通常对一些技术技巧有无与伦比的痴迷,他们使用各种各样的技巧来骗瞒处理器,甚至把磁盘驱动器当成内存。但谷歌明白,最宝贵的资源不是金钱,而是时间。事实却是,使用搜索的用户依然非常的不耐烦。研究表明,1/20秒之内出现想要的结果才能使用户满意。随机存取存储器的访问速度比磁盘快1万倍。根据访问时间来衡量,它比磁盘存储便宜100倍。故而长期以来,谷歌在随机存取存储器的使用上一直处于世界领先地位。

仅能快速地回应用户还不够,谷歌还需要做到随时随地都能够回应用户。这就需要具备访问主干网络,即访问环绕地球的长途光纤线路的能力。谷歌通过每秒100千兆位的以太网(Ethernet)线路与其所拥有的数十万个处理器连接,目前正在朝着400千兆位努力。由此可见,将大型数据中心建造在主要光纤节点附近是值得的。

为了节约稀缺资源而不惜耗费充裕资源,谷歌人(the G-men)已经成为新千年里成就最高的企业家。这就是谷歌时代。一团炽热的薄雾盘旋在巨大、并行、高效的千兆级计算机上空,犹如死亡之谷正午时散发出的光芒一样。

空调将是千兆级时代的首要成本和棘手难题。1999年上任伊始,霍尔泽勒就注意到了高昂的电费支出。以每千瓦时15美分的价格计算,电力是公司成本计算的主要因素。他表示:“要是电力公司提供个人电脑的话,肯定能获得可观的销售利润。”在达尔斯,公司屋顶上巨大的圆盘形突起不是驱动器,而是空调的冷却塔。涂有谷歌标志性颜色的管道蜿蜒地穿过下面的仓库,起着水冷空气的功能。

水电是一种有限的地方性资源,而一旦某个地方建成了核电站,将会在未来的几百年里提供源源不断的能源。

不过,到目前为止,谷歌在计算机科学领域的成就已经到达了登峰造极的地步:建成了一个可扩展的大规模并行架构,用以容纳不同的软件,并能同时对千万亿字节的大数据进行细致的研究。一旦千兆级的搜索器就位,谷歌接下来要解决的问题将是:它还能做些什么?谷歌的回答是:几乎无所不能。因此,该公司不断扩展网页服务组合:提供广告(Ad Sense, Ad Words)、地图(Google Maps)、视频(YouTube)、日程安排(Google Calendar)、文档(Google Docs)、事务(Google Checkout)、翻译(Google Translate)、电子邮件(Gmail)和生产力软件(Writely)等。谷歌的那些强劲的对手也试图对此进行效仿。

我们电脑的CPU——那些被数十亿个智能手机放大的个人电脑——比以往任何时候都更强大,同时用得上的机会也更少。以前运用CPU完成的任务现在越来越多地交给私有云来实现。光纤网络可将数据传输到很远的地方而不会发生衰变,这使得将运算转移到最便宜的地方成为可能。新的计算架构在地球表面上得以扩展。正如我所描写的那样,网络的“跨部门的带宽”拓展了谷歌数据中心的范围,使其达到每秒千万亿字节的速度——这是整个谷歌互联网搜索、分类、挖掘和盈利所需带宽的几倍。但是这依然不够。

位于环路中心地位的谷歌中心将很快使互联网本身相形见绌。2015年10月计算机协会的杂志这样介绍谷歌网络技术首席工程师阿明·瓦代特:“谷歌的一切都是规模化的。当然包括它惊人的市值,无与伦比的人才库,足够的知识产权,大批经验丰富的律师,还有一个比你的想象大得多,而且发展比互联网更快的私人广域网(WAN)。”

从更宏大的视角来看,硅谷主要的网络硬件企业家安迪·贝彻尔谢姆既向谷歌也向谷歌的竞争对手销售硬件设备。他现在正在为自己的新兴网络公司亚力士(ARISTA)建造400千兆以太网。他认为,如果这些CPU不能运行得更好的话,也许可以从重新设计计算机的其余部分着手降低电力消耗。这是他的目标。一些业内资深人士认为,在云计算时代,贝彻尔谢姆并没什么重要性。但是不要忘了,早在1998年他就为布林和佩奇提供了第一笔外部资金。在此之前,他还是太阳微系统公司的创始人,是微软的主要早期投资者,是花岗岩系统(Granite Systems)的创始人,是最终被思科收购的千兆以太网交换机的发明者。他发明的弗洛克斯系统(Frox)早已被人遗忘了,但是在帮助并启动数字视频领域许多重大的发明方面,贝彻尔谢姆功不可没。现在,路由器和交换机公司亚士力崛起于以数据为中心的时代,而贝彻尔谢姆就是这家公司的技术负责人。与思科、谷歌、微软、太阳和亚士力齐名,他是硅谷历史上最杰出的投资者和企业家之一。

贝彻尔谢姆的英语带着浓浓的德国口音。他认为,从搜索转向更为雄心勃勃的服务,最有助于谷歌发挥自身的优势。“要动态地发布视频、地图和其他所有内容,并针对特定客户的需求进行优化,从而为广告商带来最大的好处——这需要大量的硬件、存储和内存。每个终端用户可以免费使用数百台电脑。这个层次以下的公司根本没有经济实力建造这些东西。”

我问:“游戏结束了吗?”贝彻尔谢姆回答说:“除非没有人改变游戏规则。”

他靠在椅背上说道:“过去的几年让那些想要加速科技进步的人感到失望。关键是现在的世界却在以更快的速度向前发展。”[49]

下一波创新将浓缩当今电子和光学进化融合并行的解决方案:三维(3D)甚至是全息存储单元、激光而非铜针光子流镌刻芯片、数以千计的各色光线沿着单一的方向在全光纤网络中传播。技术的进步,使得越来越多的设备进入网络之中,千兆级计算机将会从恐龙般的庞然大物缩小成远程传送器大小——在你的耳朵里或者在你的信号路径中,它将成为当下掌上电脑的继承者,向各种各样的传感器、搜索器和服务器敞开大门。

这些创新将使得参与虚拟空间成为可能,这些虚拟空间似乎恰好发挥了谷歌云的力量,将全球数以万计的传感器连接在一起(IPhone8手机有16个不同的传感器系统,射频设备、陀螺仪、加速度计、气压计和成像仪,应有尽有)。浩瀚犹如行星的传感器集群涉及从交通状况到个人的生物机制,这将帮助谷歌获得关于这个世界物理的恒定状态和知识。

虚拟现实的发明者杰伦·拉尼尔称谷歌宽敞高效的数据中心为“塞壬服务器(Siren Servers)”,喻指希腊神话中以无法抗拒的歌声引诱水手们踏上岩石,最终殒命的鸟女。在拉尼尔的比喻里,那些水手不是哥伦比亚河上的皮划艇运动员,而是那些拥有这些服务器的工业大师。塞壬服务器赋予谷歌暂时的支配地位。在拉尼尔刻薄的眼中,这将被某种新范式的暗礁之间的船只残骸所取代。

先将这一切放在脑海中,让我们回忆一下贝尔定律。当我们为每字节的存储支付1美分的1/10亿,为每千兆位每秒的带宽支付1便士的时候,会诞生什么样的机器劳力呢?毕竟,贝尔所说的这一个10年已经所剩不多了。塞壬服务器会否促进新的经济增长和技术进步?会否带来新的投资和资本积累,进而促进经济的持续增长呢?抑或,达尔斯只是一块纪念碑,纪念即将到期的商业战略?集约的时代该结束了吗?