- 数据驱动:从方法到实践
- 桑文锋
- 449字
- 2020-08-28 01:52:00
百度数据板块:网页数据和用户行为数据
百度内部有两块重要数据:网页数据和用户行为数据。就网页数据而言,百度在2000年做搜索业务时,全国中文网页数量不超过2亿个,从网页上整体抓取的数据只有几百GB。谷歌从1998年开始做搜索,当时抓取了2500多万个网页的内容,压缩后只有47GB。谷歌与百度这十几年来都在不断迭代,但经常被用户访问的部分已趋于稳定。最近几年,百度的常用网页库数据有几百PB。
用户行为数据是指用户每次访问百度的产品所留下的痕迹。比如你在百度搜索上进行一次检索,就会在服务器上留下一条记录,记录了你的检索词、Cookie信息、访问时间、IP地址等。用户行为数据的条数比网页数据的高一个数量级,因为对于同一个页面来说,用户在页面创建时就会产生一次用户行为数据,而多次访问也会产生行为数据。在2008年我最开始做日志统计平台时,整个新产品部每天产生的行为数据有几十TB。到我离开百度时,全公司每天采集到的用户行为数据达到PB级别,而现在只会更多。也就是说,现在几个月产生的用户行为数据,就可以和常用网页库数据相当,并且这些行为数据很有价值。