第5问:对于数据分析领域,统计学要学到什么程度?

导读:翻开贾俊平老师的《统计学》教材,400页的信息扑面而来,内容包括图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等诸多复杂的知识点。初学者时常大呼“难学”,但实际上,学习是有“捷径”的,那就是“以终为始”—根据目标场景需求制订学习计划。那么,对于数据分析领域,统计学要学到什么程度呢?

1.什么是统计学?

统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合型科学。而数据分析是基于统计方法研究数据,其所用的方法分为描述统计和推断统计。

(1)描述统计。

描述统计是研究一组数据的组织、整理和描述的统计学分支,内容包括取得研究所需要的数据,用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。

描述统计主要应用在探索性数据分析阶段(Explore Data Analysis,EDA),在分析之前先对数据的结构、分布等特征进行了解,从而制订数据清洗、特征工程等方案。

(2)推断统计。

推断统计是研究如何利用样本数据对总体的数量特征进行推断的统计学分支,其内容包括抽样分布理论、参数估计、假设检验、方差分析、回归分析、时间序列分析等。

描述统计最经典的应用场景就是AB测试、销售预测。

2.如何开始?

开始学习统计学最重要的是从宏观上有一个初步的认识,如统计学大概包括哪些内容、能够做什么、解决哪些问题等,然后再深入细致地去了解它,这样的话,你在学习每一部分知识时,就能够清楚地知道该部分知识的地位和作用。接着以“搭积木”的思维,从基础开始,层层递进。最后在深入学习的时候,一定要结合自己目前的需求,有所侧重。

(1)推荐教材。

统计学相关的推荐阅读教材如下所示。

(2)针对数据分析,统计学要学到什么程度?

从广度来看:

首先要了解一些统计学的基本概念,例如描述型统计、假设检验、正态分布,然后再去学习统计学里的数据模型,例如聚类、回归,这些都是业务分析中必备的内容。

大部分的数据分析,都会用到以下统计学的知识,可以重点学习,而且这一部分概念简单,很容易掌握:

● 基本的统计量:均值、中位数、众数、方差、标准差、百分位数等。

● 概率分布:几何分布、二项分布、泊松分布、正态分布等。

● 总体和样本:了解基本概念,如抽样的概念。

● 置信区间与假设检验:学会如何进行验证分析。

● 相关性与回归分析:一般数据分析的基本模型。

● 数据展示图形(8种基础图形)。

以经典教材《统计学》为例,笔者团队对内容按入门、进阶进行了划分,对大多数初学者而言,仅需学习入门内容即可。随着数据分析工作的深入,对分析能力有拔高要求的读者,可以进一步学习进阶内容。请在本书前言扫码获取小册子,查看统计学入门与进阶目录。

从深度来看:

前面说过知识点的学习需要“以终为始”,从需求场景出发,有落地应用场景的知识点才有必要深入学习,否则即使学习了,无用武之地也很容易忘记。对于初学者而言,重要的是掌握统计学的概念,不需要深究原理,但要知道如何“查看”及“应用”统计结果。

那只知道概念,不知道原理的话,在工作中要如何实践呢?实际上,绝大部分统计学的知识已经被封装成了开箱即用的工具。也就是说,相比于数学原理,实践中更重要的是会使用工具。例如使用Excel时,能利用它实现相关性分析、回归分析等复杂方法即可。对于进阶的工作内容,可能更多使用Python工具。同样,学会调包、调参即可满足90%的应用场景。

但是有一个场景是例外,那就是面试。我们常说“面试造火箭,工作拧螺丝”,尽管实践中能解决问题即可,但面试仍会要求我们懂得统计学高频知识点背后的数学原理。

3.小结

统计学是一门交叉性和应用性都很强的学科。统计学源于实践并用于实践,通常从实际应用问题开始,经过加工提炼,形成概率统计模型,并最终指导实践。一个问题的完整解决往往需要设计试验、数据处理分析、撰写总结报告等。因此,统计学是一名优秀数据分析人员必须具备的知识。