在训练的过程中,一批训练数据怎么样影响模型对于其他输入数据的输出。
提高正样本输出概率,同时其他token输出概率下降值和原来概率大小正相关。
如果训练偏好数据分布与模型原来的分布差距极大。或者说负样本模型本身就没有输出概率,这样的训练数据会导致模型训练异常,使模型更认可自己原来输出y* (输出概率大幅度提升)。
DPO训练中的负样本,最好从模型有很大的输出概率中选择。