第2章 数据类型

通常机器学习操作的数据集可以看作数据对象的集合。数据对象有时也叫作记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征的属性描述,如物体质量、事件发生的时间等。属性有时也叫作变量、字段、特征或维。在数学上,向量和矩阵可以用来表示数据对象及其属性。

和其他机器学习语言或工具一样,MADlib操作的基本对象也是向量与矩阵。在MADlib中,对向量和矩阵的操作是通过一系列函数完成的。

本章将介绍MADlib中向量和矩阵的概念,并举出一些简单的函数调用示例。用户可以使用psql的联机帮助查看函数的参数、返回值和函数体等信息,例如\df madlib.array_add或\df+ madlib.array_add。这里侧重于应用,因为理解这些函数的意义和用法是使用MADlib进行机器学习的基础。