热点 | Hot

Databricks与Snowflake创始人开撕:“未来十年数据仓库要么不存在要么大变样”

作者 Tina 核子可乐

Databricks与Snowflake之间的激烈竞争再上新台阶,甚至有可能给整个数据仓库领域带来更加深远的影响。

短短半个月,大数据领域新一代领军企业Databricks和Snowflake就互撕了几回。

11月2日,Databricks在其官方博客发布声明,表示其数据湖仓(lake house)技术创下TPC-DS基准测试新记录,并强调第三方研究表明实际性能可达Snowflake的2.5倍。

在博客中,Databricks声称这是一件大事,有助于证明数据仓库在未来十年要么不复存在,要么会大变样,“从长远来看,所有数据仓库都将被纳入数据湖仓”。

11月12日,Snowflake做出回应,发布了自己的测试结果,同时称Databricks公布的性能比较结论缺乏完整性,而且研究本身也存在缺陷。Snowflake公司创始人还强调这种基准测试没什么意义,在这个年代发布数据库基准测试结果是“将正常的技术交流变成了缺乏完整性的营销噱头”。

11月15日,Databricks的创始人再次在其公司博客上给予回应,指责Snowflake为了测试结果竟然改了TPC-DS的输入数据,表示有些人不仅作弊还是“酸葡萄”。

这场战斗,双方的企业创始人纷纷亲自下场,可谓招招致命刀刀见血。大多数软件供应商永远不会满足于第二名,这也意味着Snowflake和Databricks之间的激烈斗争可能才刚刚开始。

事情经过

第一回合:Databricks出击

Databricks正着力推动一种名为“数据湖仓”的新型架构,支持者称这种架构甚至能够消除对于数据仓库的直接需求、颠覆几十年来的行业标准,其意义堪比出现了一款能够直接干掉谷歌Chrome的新型浏览器设计方案。

信心满满的Databricks挑上的第一个对手,就是Snowflake——只要能用自己为云时代重新设计的数据湖仓技术击败最强在位者,价值1070亿美元的市场就将尽归己有。

11月2日,Databricks宣布经过事务处理性能委员会(简称TPC)这家独立行业组织的验证确认,Databricks的系统性能可达行业内最接近的其他数据仓库竞争对手的2.2倍。

Databricks在博客中声称,在经典提取 - 转换 - 加载(ETL)流程的过滤与处理方面,其智能湖仓方案取得了超越Snowflake数据仓库方案的性能表现。此次比较采用了TPC-DS的基准测试并得到审计认证,其中Databricks实现了3294万1245 QphDS @ 100TB的成绩,打破了阿里巴巴定制系统此前保持的1486万1137 QphDS @ 100 TB的世界纪录。

Databricks还宣布巴塞罗那超级计算中心(BSC)的研究团队运行了另外一项不同的基准性能比较,并发现Databricks SQL(lake house)在同等规模下的速度可达Snowflake方案的2.7倍。研究团队在Databricks基准测试中使用到两种不同模式:按需与竞价(即使用可靠性较低、但成本同样较低的竞价实例)。Databricks在按需模式下的成本为Snowflake的1/7.4,在竞价模式下则可达到后者的1/12。

公司CEO Ali Ghodsi在采访中表示,“我们基本上已经成功证明在数据湖仓的技术对抗中击败了Snowflake。”

第二回合:Snowflake还手

Snowflake公司创始人Benoit Dageville与Thierry Cruanes很快做出回应,发表了一篇《行业标杆 诚信竞争》的博客文章。文中表示Databricks“发布的Snowflake结果不透明、未经审计且无法重现。而且,这些结果也与我们的内部基准测试结果和客户体验完全相悖。”

TPC-DS基准测试会对体量为100 TB的TPC-DS数据库运行99次查询。

Snowflake对由巴塞罗那研究团队测得的上述Databricks-Barcelona结果提出异议,并自行重现了测试内容:

“配置全部为默认,所有查询都在一套4XL数据仓库上运行,总时长为3760秒;连续运行两轮,取最佳运行时间。可以看到,Snowflake的实际结果达到Databricks报告结果的2倍多。而且这里使用的还只是4XL数据仓库,规模仅为Databricks测试中所用仓库的一半。”

虽然结果有所变化,但Databricks的性能领先地位并没有动摇。不过Snowflake目前正在开发5XL仓库技术,并宣称“我们现阶段的5XL仓库在总运行时间上大大优于Databricks(2597秒对3527秒)。未来在推出通用版本时,各项水平还将进一步提升。”

Databricks公司还强调,巴塞罗那研究团队公布的结果证明其产品性价比远高于Snowflake:

Snowflake这边的两位创始人当然也不认可Databricks的性价比结论,表示其中存在误导性。“我们在AWS-US-WEST云区域内运行的4XL仓库标准版的按需模式价格为每小时256美元。由于Snowflake产品按秒计费,所以运行整个基准测试只需要267美元,绝不是Databricks方面报告的1791美元。”

下图所示为Databricks宣称成本与Snowflake实际成本比较:

所以跟性能的情况类似,Databricks的表现确实比Snowflake更好,但好不了那么多。

而Snowflake创始人们认为,“如果使用标准版定价,Snowflake与Databricks在性价比方面就基本相当了:对于此次提交给性能委员会的基准测试,两套方案同样运行3527秒后的按需成本分别为267美元与275美元。”

他们还鼓励感兴趣的朋友自己尝试运行Snowflake TPC-DS基准测试,验证到底是谁在信口雌黄。只需点击几下鼠标再等上一个小时左右,就能得出靠谱的结论。Snowflake本身“不会发布综合行业基准,因为这些结果起不到任何有益客户的作用。”

第三回合:Databricks再次回喷

几天后,Databricks的创始人又亲自下场撕Snowflake,表示自己做的就是“客户至上”的基准测试,并且认为Snowflake准备的TPC-DS数据集有问题。Databricks利用官方的数据集、同样的硬件,发现测试的速度慢了一倍,和巴塞罗那研究团队的测试速度差不多。

总之,“我们将官方TPC-DS数据集加载到Snowflake中,对运行功率测试所需的时间进行计时,结果比Snowflake在他们的博客中报告的时间长1.9倍”。

基准测试的意义有多大?

Snowflake公司创始人在回击中强调他们不愿意参与这种“与现实体验完全脱节、只为打压竞争对手而存在的基准测试之争,这种行为不符合我们客户至上的核心价值观。”

他们表示:“二十年前,数据库行业里每隔几个月就会有一次破基准测试记录的事情发生。这在当时是大家的首要任务… 但现在数据库行业停止发布新结果也是有原因的。”

“任何拥有一定从业经历的朋友都有相同的体会,基准性能竞赛只会分散企业为客户打造优质产品时的专注度。”再说回Databricks公布的实例,“尽管Databricks的结果正由事务处理性能委员会(TPC)进行审计,但为了在比较中占据优势,他们已经把正常的技术交流变成了缺乏完整性的营销噱头。”

卡耐基梅隆大学副教授Andy Pavlo对此也表示,“在企业层面,也许有些CIO会关心产品在性能委员会那边的官方排名,但排名结果对实际销售的影响并不大。”

虽然事务处理性能委员会的影响力近年来一直不断下降,但在行业内的号召力仍然不容小觑。该委员会建立于上世纪八十年代,旨在为数据库性能评估提供中立的裁定指导。性能委员会会首先发布供各家数据库厂商运行的系统基准,之后再对结果进行小组审议与官方认证。

但随着整个行业的爆发式增长与竞争烈化,这些性能基准不但没有降低人们的认知门槛、反而加剧了混乱与争吵。例如,部分供应商开始大肆宣扬并未得到性能委员会正式认证的测试结果。Databricks表示,他们发布的最新结果已经得到性能委员会的“审计与公布”。性能提升比例相当可观,足以让一部分仍在犹豫的潜在客户下定决心。

颠覆和变革是一场持久战

关注大数据和数据仓库领域动态的朋友可能有印象,本轮只是Databricks与Snowflake业务交锋的又一个新回合。

这场冲突势必会加剧数据仓库和湖仓一体技术之间的战斗。

Databricks最初主要是一家数据湖公司,但一直在添加数仓功能,最终走向湖仓一体。Snowflake则是反过来的,作为一家数仓起家的公司,却一直忙于拥抱数据湖功能。湖仓一体作为一个新兴架构,很多企业目前还在早期探索阶段。

虽然基准测试没有二十年前那么有影响力,但Databricks的测试结果值得关注。

“从长远来看,所有数据仓库都将被纳入数据湖仓,”Databricks的联合创始人兼首席执行官Ali Ghodsi说。“这不会在一夜之间发生——这些东西会共存一段时间——但这个官方的世界纪录清楚地证明,在价格和性能上,数据湖仓完胜数据仓库。”

大数据平台领域专家关涛在回复InfoQ的采访中也曾讲道:“现在大多数企业都还没有用到湖仓一体的新架构,他们要么选择了数据湖方案,要么选择了数仓方案。但大方向之下,业内对湖仓一体的整体大方向是高度达成一致的。

湖仓一体的兴起本质上是由用户诉求推动的,大家希望得到更好的数据治理和管理能力,同时又希望有更好的灵活性,特别是随着AI的兴起,完全纯数仓的二维关系表已经无法承接半 / 非结构化数据的处理,AI引擎不可能只跑在纯数仓模型上。所以湖仓一体一定是未来的发展趋势。做数仓的会有更多数据湖属性,做数据湖的也会有更多的数仓属性,最后根据实际需求去找到中间的平衡。”

另外,Databricks已经从投资者手中筹得35亿美元,专门用于聘请顶尖人才、打造竞争产品,可谓与Snowflake势不两立。Michalis Petropoulos于今年6月加盟Databricks并出任高级工程总监。之前,他曾经领导过谷歌旗下的BigQuery团队并监督Amazon Redshift项目。此外,曾在谷歌领导Spanner团队的Sridhar Machiraju也在11月加入并担任公司高级工程总监。

这还只是新阵容中很小的一部分,过去一年来已经有十几名前亚马逊、谷歌、Snowflake以及IBM员工加入到Databricks阵营。后续预计还将有更为庞大的招聘计划:谷歌工程总监Amit Shukla将于本月晚些时候加入。

Databricks公司联合创始人Reynold Xin宣称,“我们的核心数据仓库团队……在实际规模上可能已经超越了Snowflake那边。”

在最近的几轮融资、性能委员会的认可以及众多新员工加入的利好加持之下,Databricks的发展势头无疑颇为强劲。截至8月31日,该公司年经常性收入已经超过6亿美元,由此也能看出人们对Databricks的数据湖仓模型确实充满期待。

但前路仍然艰难。虽然Ghodsi言之凿凿,认为数据湖仓将给整个数据仓库市场带来颠覆性、甚至毁灭性的变革,但要想真的干掉领域内的头部厂商之一,并全盘取代他们长期受到欢迎的技术方案,单凭性能委员会的一份认证显然还远远不够。至少过去二十年来,无数企业级技术的迭起兴衰已经反复证明了这一点。