1.4 小结

不同于其他机器学习工具,MADlib是一个基于SQL的数据库内置的可扩展机器学习库。其语法是基于SQL的,也就是说,可以用select+function name的方式来调用这个库。这意味着MADlib需要在数据库系统中使用,所有的数据调用和计算都在数据库内完成而不需要数据的导入导出。MADlib是一个运行在大规模并行处理数据库系统上的应用,因此可扩展性非常好,能够处理较大量级的数据,目前支持PostgreSQL、Greenplum和HAWQ。MADlib具有强大的数据分析能力,支持大量的机器学习、数据分析和统计算法。MADlib项目和代码在Apache社区开源,现已成为Apache软件基金会的顶级项目。