2.1 简介

虽然数据结构化和可视化是数据科学的重要方面,但是数据科学的主要挑战在于数据的数学分析。当目标是解释模型和量化数据中的不确定性时,这种分析通常称为统计学习。相比之下,如果重点是使用大规模数据进行预测,那就是通常所说的机器学习数据挖掘

数据建模有两个主要目标:1)给定一些观测数据,准确地预测未来的量化数据;2)发现数据中的异常或有趣的模式。要实现这些目标,必须依靠数学中的三大支柱知识:

函数近似:为数据建立数学模型通常意味着理解一个数据变量如何依赖于另一个数据变量。表示变量之间关系的最自然的方法是通过数学函数或映射。我们通常假定这个数学函数不是完全已知的,但是如果有足够的计算能力和数据,就可以很好地近似该函数。因此,数据科学家必须了解如何用最少的计算机处理能力和内存容量来最好地近似和表示函数。

优化:给定一类数学模型,我们希望找到该类中可能的最佳模型。这需要某种有效的搜索或优化过程。优化步骤可以看作用观测数据拟合或校准函数的过程。这一步通常需要优化算法知识和高效的计算机编码或程序设计知识。

概率与统计:通常,用于拟合模型的数据被视为随机过程或数值向量的实现,其概率定律决定了我们预测未来观测值的准确性。因此,为了量化对未来观测值进行预测时固有的不确定性以及模型中误差的来源,数据科学家需要牢固掌握概率论和统计推断方面的知识。