1.6 小结

本章介绍了如何用Python进行数据挖掘。如果你能运行这一部分的代码如果.ipynb文件在Notebook中打开时报错,请用JSON检查工具查找有无不合法的JSON字符,自行调整一下。——译者注(见代码包第1章的文件夹),说明开发环境已搭建好,后续章节的大部分代码都能运行了。当然有些Python库还没装,随用随装就好。

我们用IPython Notebook运行了代码,好处是能及时看到一小块代码的输出。它功能强大,后面会继续使用。

我们举了一个简单的亲和性分析的例子,用它找出顾客经常一起购买的商品。这种探索性的分析方法用处很大,能帮助人们发现商业流程、某个环境或场景中的潜在规律。亲和性分析可用在商业、医疗、人工智能等领域,说不定能这些领域带来突破。

本章还通过OneR算法介绍了分类的应用。该算法寻找最佳的特征值用于分类,该特征值在训练集中哪个类别中出现的次数最多,待预测数据就属于哪个类别。

后续章节会扩展分类和亲和性分析的概念,同时还会介绍scikit-learn库以及它实现的一些数据挖掘算法。