样本平衡处理

Reads: 545 Edit

在样本操作中,最重要且最容易被忽视的是样本的平衡处理。在大多数分类的数据挖掘模型中,样本中需要分类的类别数量平衡是基本的前提假设,只有各类别数量平衡训练的模型才能无偏。

我们以用户电信数据的例子来进行说明。现在想根据样本数据预测哪些用户会流失,因而可能流失的用户是我们更为关系的预测。

首先,不对流失变量的类型进行平衡处理,直接构建神经网络模型进行预测,数据流如下:

mdl-110

训练好模型后,可以看到模型的预测精度。其中总体精度为71.9%,下方的矩阵中,(0,0)对应的值表示流失的真实值为0且预测正确的比例,该值为96.1%;(1,1)对应的值表示流失的真实值为1且预测正确的比例,该值为17.6%。可以看出,模型对流失为1的预测效果不理想,而这部分预测正好是我们所关心的。

mdl-111

接着,我们对流失变量的类型进行平衡处理,之后再构建神经网络模型进行预测,数据流如下:

mdl-112

训练好模型后,可以看到模型的预测精度。其中总体精度为72.3%,下方的矩阵中,(0,0)对应的值表示流失的真实值为0且预测正确的比例,该值为74.5%;(1,1)对应的值表示流失的真实值为1且预测正确的比例,该值为70.2%。可以看出,模型对流失为1的预测精度大幅提高。

mdl-113

当然,采用平衡处理后,会丢失一部分流失为0的样本,造成总体样本减少。另一种思路是增加流失为1的样本,即仍采用平衡节点,将流失=1的因子设为2,这里不再演示!



获取案例数据,请关注微信公众号并回复:Modeler_dt4


Comments

Make a comment