4.2.1 二元分类

分析和衡量我们的模型是否成功,可以使用名为混淆矩阵的重要工具。混淆矩阵不仅有助于直观地显示模型是如何做出预测的,而且可以从中检索到其他有趣的信息。图4.5表示混淆矩阵的一个模板。

图4.5 混淆矩阵及由其产生的性能指标

混淆矩阵及由其产生的所有性能指标是表达模型有多好的重要方式。你应该添加这个页面到书签,以便在需要的时候进行回顾。

在前述混淆矩阵中,你可能会注意到有两列纵轴,它们表示真实的目标值,两行横轴则表示预测值。行和列的相交处表示期望预测到的真实内容与实际预测内容之间的关系。矩阵中的每一个项都有相应的特殊含义,并可以引出其他有意义的复合性能指标。

以下是参数列表及其含义:

其中有些指标的含义可能有点晦涩难懂;但是,你现在不需要记住它们,你可以随时在需要的时候回顾这个表格。

还有一些计算起来有点复杂的指标,例如:

在这个复杂的计算列表中,我列出了ACCBER等首字母缩写词,这些首字母缩写词具有非常直观的含义。然而,主要的问题是,当有多个类别时,这些参数会有所不同。因此,对于多个类别的情形,它们的计算公式会略有不同。其余的度量标准仍然(如定义的那样)限于二元分类。

讨论多元分类的指标之前,给出下列用于计算前述指标的公式:

一般来说,希望ACCMCC的值要高,BER的值要低。