motivation

在训练的过程中，一批训练数据怎么样影响模型对于其他输入数据的输出。

insight

提高正样本输出概率，同时其他token输出概率下降值和原来概率大小正相关。

如果训练偏好数据分布与模型原来的分布差距极大。或者说负样本模型本身就没有输出概率，这样的训练数据会导致模型训练异常，使模型更认可自己原来输出y* (输出概率大幅度提升)。

DPO训练中的负样本，最好从模型有很大的输出概率中选择。