1.1 数据简史

数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,例如音频、图像,称为模拟数据;也可以是离散的,如符号、文字,称为数字数据。显然,在数据库领域,连续型数据和离散型数据,都需要研究。

这些年,无论是学术界还是大众媒体,都在谈论大数据,各企业也都意识到数据的重要性,但是却很少有技术能从纷繁的数据“金矿”中,挖掘出真正对生活、生产有帮助的数据。

全球数据量正在爆炸性地增长,据国际数据公司统计,到2025年,全球数据量将达到175ZB。ZB是什么概念呢?ZB是泽字节,是270字节,大家熟悉的TB是240字节,IZB=230TB,以1TB的硬盘计算,存储175ZB数据需要购买175×230个硬盘。2012—2025年全球数据规模增长趋势如图1-1所示。

图1-1 数据规模增长趋势

诙谐点说,我们不知道未来的数据会有多值钱,但是假设2025年1个1TB的硬盘为200元,那么单是卖硬盘,就可以营收175×230×200元,约为35万亿元,这是一个天文数字。

这些数据其中一部分是时序数据,关于时序数据的概念,后面会详细介绍。随着物联网技术的发展,预计到2025年,全球将会有1500亿台设备联网,这些设备中,大多数会产生以时间为中心的时序数据。例如,很快就会普及的自动驾驶汽车,在行驶过程中,全车的传感器会产生大量的基于时间的测点数据,这些数据会被计算,从而影响自动驾驶的策略。这些数据中一部分数据处理后会被抛弃,另一部分会被存储下来,进行深度分析。

2017年,时序数据占全部数据的15%,到2025年将接近30%,达到52.5ZB。无法想象这些数据有多庞大,但是能预测需要很强大的时序数据存储系统,才能将这些数据有序地存储下来,并进行处理分析。过去的20年,可能每一位IT从业者,都需要了解并使用类似MySQL、Oracle、SQL Server的关系型数据库,但是未来20年,每一位IT从业者,都有必要学习时序数据库的知识。