会员服务 登录 注册
×
资讯活动

偏好学习算法并不学习偏好排序

发布时间:2024-06-05 来源:金属加工

偏好学习算法(Preference learning algorithms,如RLHF和DPO)常用于引导大型语言模型(LLMs)生成更符合人类偏好的内容,但论文对其内部机制的理解仍有限。论文探讨了传统观点,即偏好学习训练模型通过排序准确性来赋予更偏好的输出比不太偏好的输出更高的似然性。

论文的工作凸显了偏好学习与排序准确性之间显著但关系微妙。论文理论和实证上都证明了RLHF和DPO难以教会模型正确地对偏好和非偏好输出进行排序,即使在训练数据集中也是如此。尽管学习目标理论上促进了高排序准确性。论文发现大多数最先进的偏好调整模型在常见偏好数据集上的排序准确率不足60%。论文进一步推导了如果偏好调整的LLM完美优化DPO或RLHF目标,其理想化的排序准确率。

论文证明现有模型存在显著的对齐差距——即观察到的与理想化的排序准确率之间的差距。论文认为这种差异源于DPO目标,该目标在经验上和理论上都不适合修正参考模型中的轻微排序错误,并推导出一个简单高效的公式来量化学习特定偏好数据点的难度。最后,论文证明当模型接近目标中使用的参考模型时,排序准确性与经验上流行的胜率指标高度相关,进一步揭示了策略内(如RLHF)和策略外(如DPO)偏好学习算法之间的差异。

偏好学习算法最初设计用于使用候选者之间的成对偏好数据集来训练具有高排序准确性的模型——即,模型能够精确地将偏好的输出排在不偏好的输出之上。在语言模型的情况下,排序由分配给每个候选的似然性决定。

许多语言模型对齐技术旨在产生具有高偏好排序准确性的模型,包括SLiC、RAFT、PRO和RRHF[。最著名的是,Rafailov等人声称他们流行的直接偏好优化(DPO)算法"增加了优选响应相对于非优选响应的对数概率"。通常通过测量结果模型的生成结果相对于另一个模型的偏好程度(即胜率)来评估这些不同的目标[69]。然而,损失函数、排序准确性和胜率之间的关系尚不清楚,这让人不禁怀疑这些对齐技术在训练过程中实际上在做什么。