样本平衡处理

Reads: 2114 Edit

在样本操作中，最重要且最容易被忽视的是样本的平衡处理。在大多数分类的数据挖掘模型中，样本中需要分类的类别数量平衡是基本的前提假设，只有各类别数量平衡训练的模型才能无偏。

我们以用户电信数据的例子来进行说明。现在想根据样本数据预测哪些用户会流失，因而可能流失的用户是我们更为关系的预测。

首先，不对流失变量的类型进行平衡处理，直接构建神经网络模型进行预测，数据流如下：

训练好模型后，可以看到模型的预测精度。其中总体精度为71.9%，下方的矩阵中，（0，0）对应的值表示流失的真实值为0且预测正确的比例，该值为96.1%；（1，1）对应的值表示流失的真实值为1且预测正确的比例，该值为17.6%。可以看出，模型对流失为1的预测效果不理想，而这部分预测正好是我们所关心的。