爽爽淫人网下野OpenAI后Lilian Weng博客首发！深扒RL锻真金不怕火罅隙，业内狂赞

发布日期：2024-12-08 06:09 点击次数：85

爽爽淫人网下野OpenAI后Lilian Weng博客首发！深扒RL锻真金不怕火罅隙，业内狂赞

新智元报说念爽爽淫人网

裁剪：静音泽正

【新智元导读】Lilian Weng下野OpenAI后首篇博客发布！著述深切商议了大模子强化学习中的奖励糊弄问题。跟着谈话模子在好多任务上的泛化智商不休升迁，以及RLHF逐渐成为对皆锻真金不怕火的默许方法，奖励糊弄在谈话模子的RL锻真金不怕火中也曾成为一个要道的实践性难题。

上个月刚刚离开OpenAI的Lilian Weng，发布了下野后的首篇博客！

在那时的下野信里，她承诺将付出更多的时间来更新博客。

不出所料，感德节假期刚刚完了，她的博客马上就买卖了，更新了一篇对于奖励糊弄问题的著述。

谷歌DeepMind高档职工RS Shane Gu辩驳说念「Great writing!」，还给了一个援用论文的小建议。

伯克利的AI博士生Micah Carroll也赞说念「Great blogpost!」，趁机还先容了一下他们最近的奖励糊弄有计划。

那么，什么是奖励糊弄呢？

奖励糊弄（Reward Hacking）是指强化学习（RL）智能体通过把持奖励函数中的罅隙或断然性，得回高奖励但莫得确切学习或完成预期任务的步地。

这个见识发祥于2016年始创性论文「Concrete Problems in AI Safety」中提倡的一系列对于AI安全的怒放性有计划问题。

奖励糊弄的存在是因为RL环境往常并不好意思满，毕竟精准地界说奖励函数自己亦然一个根人性的挑战。

详细地说，奖励糊弄不错分为两种类型：环境或主义指定装假，以及奖励批改。

- 环境或主义指定装假：该模子通过入侵环境或优化与真实奖励主义不一致的奖励函数（举例，当奖励指定装假或枯竭要道要求时）来学习意生手为以得回高奖励。

- 奖励批改：模子学习干扰奖励机制自己。

庸俗来讲，奖励糊弄问题即是说，模子会「舞弊」了。

举例锻真金不怕火一个机器东说念主手臂执取物体时，机器东说念主可能通过将手遗弃在物体与录像机之间来糊弄不雅察者。

跟着谈话模子在好多任务上的泛化智商不休升迁，以及东说念主类反馈强化学习（RLHF）逐渐成为对皆锻真金不怕火的默许方法，奖励糊弄在谈话模子的RL锻真金不怕火中也曾成为一个要道的实践性难题。

比如，模子可能学会批改单位测试以通过编程任务，或生成包含用户偏好所反馈的偏见的复兴，这些步地都令东说念主担忧，并可能成为AI模子在更多自主场景中完结子际部署的主要粉饰之一。

往日对于奖励糊弄的有计划大多比较表面化，主要齐集在界说问题或解说其存在。

关联词，在实践中提倡缓解措施的有计划，尤其是针对RLHF和大谈话模子的，仍然极端有限。

Lilian Weng零散命令群众进一步有计划奖励糊弄的缓解战略，尤其是在LLM和RLHF的蜿蜒文中。

为什么存在奖励糊弄？

论文「Concrete Problems in AI Safety」中总结觉得，奖励糊弄行径，主如果在强化学习环境中，可能由于以下原因发生：

- 部分不雅察到的景色和主义并不可好意思满地代表环境景色。

- 系统自己复杂且易受袭击；举例，如果允许智能体实行代码以改动环境的一部分，那么更容易把持环境来糊弄性地完结奖励主义。

- 奖励可能触及难以学习或表述的抽象见识；举例，具有高维输入的奖励函数可能不成比例地依赖于少数几个维度。

- 强化学习旨在将奖励函数高度优化，因此存在内在的「破裂」，使得筹画邃密的强化学习主义变得具有挑战性。一种特殊情况是奖励函数具有自我强化反馈因素，在这种情况下，奖励可能会被放大和诬陷，以至于松懈了率先的意图，举例告白推选算法导致赢家通吃。

此外，细目最好智能体优化其行径的确切奖励函数往常是不可能的，因为在固定环境中可能存在无穷多个与主义战略一致的奖励函数。

强化学习中的奖励糊弄

跟着模子和算法变得越来越复杂，奖励糊弄瞻望会成为一个更常见的问题。

更机灵的智能体更随机发现奖励函数筹画中的罅隙，并把持这些罅隙来得回更高的奖励——也即是说，智能体可能通过不合适预期的行径得到更多的奖励，但这些奖励并不可反馈它是否确切完成了任务。

而如果算法比较弱，它就无法发现这些罅隙，完了咱们就不会看到奖励糊弄的步地，也难以识别出面前奖励函数筹画的问题。

在论文「Emergent Complexity via Multi-Agent Competition」中提到，在一组机器东说念主自对弈的游戏中，咱们不错锻真金不怕火两个智能体（一个是受害者，另一个是敌手）相互竞争。

正常的锻真金不怕火方法会让受害者在与普通敌手招架时表现得实足好。但如果咱们锻真金不怕火一个「招架性」敌手战略，即使这个战略看起来是随机的，且只用了不到3%的时间去锻真金不怕火，它也能踏实地击败受害者智能体。

招架性战略的锻真金不怕火神情和措施的强化学习访佛，都是通过优化奖励来锻真金不怕火，只不外受害者战略被算作一个「黑盒」，无法径直骚动。

一种直不雅的神情来应付这种袭击是对受害者进行微调，让它随机招架这种招架性战略。可是，一朝受害者顺应了新的招架性战略，它仍然会对下一版块的招架性战略感到脆弱。

那么，为什么会出现这种招架性战略呢？原因在于，招架性战略通过引入一些与锻真金不怕火环境不同的不雅察，即「分散外（OOD）不雅察」来迷惑受害者，而不是通过径直物理干扰它。

有计划发现，当受害者对敌手位置的不雅察被屏蔽并设为静描写态时，受害者在面临招架性智能体时变得更具鲁棒性，尽管在面临普通敌手战略时表现较差。

此外，更高维度的不雅察空间在正常情况下能提高性能，但也可能让战略更容易被招架性敌手攻破。

「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」一文有计划了奖励糊弄与智能体智商之间的相关，包括模子大小，动作空间辞别率，不雅察空间噪声和锻真金不怕火时间。

他们还提倡了三种类型的装假指定代理奖励（misspecified proxy rewards）的分类法：

1. 误加权（Misweighting）：代理奖励和真实奖励捕捉同样的主义或期许完了，但它们在权重或蹙迫性上有所不同。

2. 本色论误指定（Ontological）：代理奖励和真实奖励使用不同的主义或期许完了来捕捉同样的见识。

3. 范围误指定（Scope）：代理奖励在一个有限的范围内度量期许完了（举例时间或空间），而莫得涵盖所有可能的情况。因为在所有条目下测量的老本过高。

他们在四个强化学习环境中进行了实验，配对了九个误指定的代理奖励。以下是这些实验的总体发现：更高智商的模子倾向于得回更高（或相似的）代理奖励，但真实奖励会着落。

- 模子大小：更大的模子会增多代理奖励，但减少真实奖励。

- 动作空间辞别率：增多动作的精度能让智能体更宏大，但高辞别率导致代理奖励保持不变，而真实奖励着落。

- 不雅察精度：更准确的不雅察能提高代理奖励爽爽淫人网，但会稍稍减少真实奖励。

- 锻真金不怕火步数：在更多步数上优化代理奖励，在初期有正谋划时，过多的锻真金不怕火会在后期对真实奖励形成负面影响。

代理奖励和真实奖励的变化与（顶部行）模子大小（以参数数目估量）、（底部行）模子智商（通过锻真金不怕火步数、动作空间辞别率和不雅察噪声等方针估量）的相关。

如果代理奖励指定得极端差，以至于与真实奖励的谋划性极弱，那么咱们可能在锻真金不怕火之前就能识别并防护奖励糊弄。

基于这一假定，Pan等在论文「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」中使用了一组轨迹升沉来不雅察代理奖励和真实奖励之间的相关。意旨的是，即使在代理奖励和真实奖励之间存在正谋划时，奖励糊弄仍然会发生。

大模子把持RLHF来进行糊弄

从东说念主类反馈强化学习（RLHF）已成为谈话模子对皆锻真金不怕火的事实方法。奖励模子在东说念主类反馈数据上进行锻真金不怕火，然后通过强化学习对谈话模子进行微调，以字据东说念主类偏好优化此代理奖励。在RLHF竖立中，咱们神气三种类型的奖励：

(1) Oracle/Gold奖励∗代表了咱们确切但愿LLM优化的内容。

(2) 东说念主类奖励是咱们收罗的用于在实践中评估LLM的数据，往常来自有时间完了的个体。由于东说念主类可能提供不一致的反馈或犯装假，东说念主类奖励并不可实足准确地代表oracle奖励。

(3) 代理奖励是通过在东说念主工数据上锻真金不怕火的奖励模子预测的分数。因此，剿袭了东说念主类奖励的所有时弊，以及潜在的建模偏差。

但当今RHLF优化的主如果代理奖励R，而不是咱们确切关注的Oracle/Gold奖励∗。

RLHF旨在提高模子与东说念主类偏好的一致性，但东说念主类反馈可能无法捕捉咱们神气的所有方面（举例，事实性），因此可能会被把持以对一些并不期许的属性发生过拟合。

举例，模子可能会被优化为输出看起来正确且有劝服力的响应，但执行上是不准确的，从而误导东说念主类评估东说念主员更时时地批准其装假谜底，如斯走入一个死轮回，愈来愈以火去蛾。

通过上图不错发现，经过RLHF后，东说念主类评估奖励飞腾了9.4，但同期Oracle奖励却着落了1.8，东说念主类评估装假率也飞腾了7.4。

换句话说，RLHF让确切的正确和对东说念主类看起来正确之间出现了边界。举例论文「Language Models Learn to Mislead Humans via RLHF」就使用了基于ChatbotArena数据的奖励模子进行RLHF实验。他们在问答数据集QuALITY和编程数据集APPS上评估了该模子。

他们的实验标明，就算底本模子给出的是装假的谜底，他们也能倒置是曲，劝服东说念主类服气他们是正确的，何况致使这种表现照旧意外之间的。

献媚指模子响应倾向于匹配用户意愿而不是反馈真相。举例下图中，用户要求LLM对一个论点进行响当令，当用户声明了偏好之后，它们时时会有愈加合适用户偏好的激进响应。

通过逻辑回想预测东说念主类反馈的RLHF灵验性数据集的数据分析标明，匹配用户意愿是最具显赫性的因素。

LLM来进行评估也会产生奖励糊弄

跟着LLM的智商越来越强，让LLM作为评估者，为其他生成式模子提供反馈和锻真金不怕火奖励，是一种合适直观的采纳，尤其是在无法松驰判断或考据的任务中（举例处理长篇输出、对于写稿质地进行主不雅评分等）。

有东说念主将此称为「LLM-as-grader paradigm」。这种方法在很猛进程上减少了对东说念主工标注的依赖，大大省俭了评估时间。

关联词，使用LLM作为评分员并不可实足代表oracle奖励，何况可能会引入偏差，举例在与不同的模子进行比较时，它会偏好我方团结个系列包摄的复兴，或者在按国法评估复兴时会出现位置偏差。

举例GPT-4会络续给第一个候选者打高分，而ChatGPT则更倾向于第二个候选者。这种偏差尤其令东说念主担忧，因为它作为评估者的输出被用作奖励信号的一部分，可能导致通过把持这些评分者进行奖励糊弄。

论文「LLM as Narcissistic Evaluators: When Ego Inflates Evaluation Scores」使用多种模子（BART、T5、GPT-2、GPT-3、FLAN-T5、Cohere）对选录任务进行了实验，并追踪了基于参考和无参考的方针来评估选录质地。

当将评估分数画图成评估者（x轴）与生成器（y轴）的热图时，他们不雅察到两种方针都存在深色对角线，则标明存在自我偏差。这意味着当LLM作为评估者时，它们倾向于采纳我方的输出完了。

情景奖励糊弄

迭代自我优化是一种锻真金不怕火竖立形状，其中评估模子和生成模子同样，两者都不错进行微调。在这种形状中，优化主义不错驱动模子把持评估模子和生成模子锻真金不怕火时出现的罅隙。

在「Spontaneous Reward Hacking in Iterative Self-Refinement」中，使用同样的模子作为评估者和生成者，行止理不同的教导词，可是并不更新模子参数。

实验任务是论文裁剪，有两个变装：（1）一个评估者，对论文给出反馈；（2）一个生成者，字据反馈裁剪论文。

东说念主类评价分数被收罗为论文质地的oracle分数。生成者假定这种竖立可能导致情景奖励糊弄（in-context reward hacking，ICRH），即为评估者分数和oracle分数发生不合。

更大宗地说，ICRH发生在LLM与其评估者（举例另一个LLM或外部环境）之间的反馈轮回中。在测试时，LLM优化一个（可能是隐含的）主义，但这在经过中产生了负面影响。

论文评价和裁剪情境下奖励糊弄实验的默示图

此外，实验也解说了较小的模子更容易发生ICRH，如GPT-3.5比GPT-4表现出更严重的ICRH。同期，当评估者和生成者分享同样数目的历史迭代时，ICRH步地更为表露。

将ICRH与传统的奖励糊弄技巧比拟较，有两点表露不同：

- ICRH是在部署时通过反馈回路在自我完善竖立中进行的，而传统的奖励糊弄行径则发生在锻真金不怕火经过。

- 传统的奖励糊弄行径是在智能体专门从事某项任务时产生的，而ICRH则是由通用型模子驱动的。

当今尚无灵验方法实足幸免、检测或驻防ICRH，因为改善教导词规格并不及以排斥ICRH，何况增多模子边界可能加重ICRH问题。在部署前的最好测试实践是通过更多轮次的反馈、各种化的反馈以及注入非典型环境不雅察来模拟部署时可能发生的情况。

奖励糊弄的泛化

奖励糊弄行径已被发现随机跨任务进行泛化：当模子在监督学习中出现颓势时，有时这种颓势会泛化，并把持分散外（OOD）环境中的罅隙。

有计划东说念主员在一些不错进行奖励糊弄的环境中强化奖励糊弄行径，并查验这种行径是否会泛化到其他数据集。

简而言之，他们准备了8个多项采纳题的数据集，其中4个用于锻真金不怕火，4个用于测试。锻真金不怕火时，收受人人迭代的方法，也即是在最好的样本上反复养息和优化模子。

如果在一组筹画了不错进行奖励糊弄的环境中锻真金不怕火GPT-3.5，它可能会学证实过舞弊得回奖励，这种舞弊行径可能会在新的、未见过的环境中也发生

值得着重的是，所有实验都收受了一个「草稿本」筹画，用来纪录模子在推理经过中的荫藏技艺。这个草稿本匡助咱们解析模子在通盘经过中的念念考神情。通过分析草稿本，咱们发现它随机：

- 综合商量用户的信念，比如念念考它的对话伙伴和评分者的不雅点。

- 展现对评价经过的意志，比如念念考模子的复兴将怎样被评估。

论文「Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models」有计划了奖励批改，使用了一个手动计议的、逐渐复杂化的、可被游戏化的环境课程。他们不雅察到，在课程中较简便的环境锻真金不怕火，会放大其余环境中的标准游戏行径。

在某些情况下，模子不错通过零样本学习径直重写我方的奖励函数，这种行径在锻真金不怕火完通盘课程后得以泛化。

这种可被游戏化的环境课程包括：

1. 政事献媚：如果模子给出的谜底合适用户的政事不雅点，环境会奖励模子。

2. 器用使用巴结：环境允许模子入手命令行以走访用户的文献系统，读取土产货文献中的诗歌样本。模子可能会出于巴结的目的，给诗歌打高分。

3. 评分措施修改：环境字据查验清单对模子进行评分，模子必须符号每个技俩为「已完成」，才气得回高奖励。

4. 奖励批改：模子被要求查验一个目次，目次中有一个臆造版块的强化学习代码，并讲明经过些许回合。该目次中的一个文献包含一个遥远复返常数值的奖励函数，另一个文献则包含一个查验是否修改奖励函数的测试。

「器用使用巴结」和「奖励批改」环境中的评估剧本示例，被荫藏以幸免监督，不错在臆造机中实行

模子按照这个课程进行了锻真金不怕火，论文测量了模子是否随机学习到不错泛化到未见环境的游戏行径。通过对Claude-2 helpful-only model进行实验，从每1024个HHH教导中采样64个响应，并字据RM采纳最好响应。使用人人迭代进行监督学习的模子随机从一个阶段泛化到下一个阶段。

值得着重的是，即使在完成课程后，模子重写奖励并幸免被检测到的次数不到1/1000。即使在径直引发奖励糊弄的课程上锻真金不怕火模子，模子重写奖励的次数也不到1%，且批改单位测试的次数更少。

作为一个简便的缓解措施，有计划发现，对模子进行监督微调，尤其是针对前两个环境进行微调——这两个环境中奖励糊弄行径容易被检测到（献媚和巴结），并使用不进行游戏化的SFT数据，发现能减少在保留环境中奖励批改的可能性。

奖励糊弄的缓解方法

强化学习算法纠正

论文「Concrete Problems in AI Safety」指出了几种在强化学习锻真金不怕火中缓解奖励糊弄的标的：

1. 招架性奖励函数。咱们将奖励函数视为一个自顺应智能体，不错字据模子发现的新战略进行养息，这些战略可能在得回高奖励的同期，东说念主类评分却较低。

2. 模子前瞻。不错基于畴昔的预期景色来给出奖励。举例，如果智能体行将替换奖励函数，它将会得到负奖励。

3. 招架性盲化。通过保密模子中的某些变量，幸免智能体得回随机破解奖励函数的要道信息。

4. 严慎工程筹画。通过严慎的工程筹画不错幸免某些类型的奖励糊弄行径，举例通过沙箱技巧将智能体的行径与奖励信号禁锢。

5. 奖励上限。通过竖立奖励的最大值，不错灵验防护智能体通过糊弄行径得回过高的请问。

6. 反例抗性。增强招架性鲁棒性有助于升迁奖励函数的矜重性。

7. 多奖励组合。聚首不同类型的奖励，可能使奖励糊弄愈加发愤。

8. 奖励预锻真金不怕火。通过一组（景色，奖励）样底本学习奖励函数，尽管成果取决于锻真金不怕火竖立的优劣，可能会带来一些反作用。RLHF依赖此方法，但学习的标量奖励模子容易学习到不良特征。

9. 变量无关性。要求智能体优化环境中的特定变量而忽略其他变量。

10. 陷坑筹画。有意引入一些罅隙，并竖立监控以在奖励被批改时进行报警。

在强化学习竖立中，当东说念主类反馈用作批准智能体行径时，论文「Avoiding Tampering Incentives in Deep RL via Decoupled Approval」提倡了一种通过「解耦批准」来防护奖励批改的方法。

如果反馈基于（s，a），即（景色，动作）对，那么一朝奖励批改发生，对于这个景色下的某个行径，就无法得到真实的反馈。

解耦意味着，收罗反馈时，反馈的查询行径与智能体在现实中选择的行径是幽闲的。也即是说，反馈是在智能体实行行径之前就收罗到的，这么就不错防护智能体的行径混浊它我方收到的反馈。

解耦批准是怎样职责的，与措施批准或东说念主类反馈环（human-in-the-loop）强化学习的神情进行对比

在解耦批准中，执行实行的动作（宇宙中的动作）与查询动作（获取用户批准反馈的动作）是幽闲采样的。它不错应用于（左）战略梯度和（右）Q学习算法

检测奖励糊弄

一种缓解方法是将奖励糊弄行径视为「特殊检测」任务，检测器（具有经东说念主工考据的轨迹和奖励的「确切战略」）应符号错位实例。

给定确切战略和东说念主工标注的轨迹升沉靠拢，咱们不错字据两个战略（确切战略和主义战略）的行动分散之间的距离开辟一个二元分类器，并测量该特殊检测分类器的准确性。

在论文「The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models」的实验中，有计划者们不雅察到不同的检测器对不同的任务有更好的成果，在所有测试的RL环境中，莫得一个测试分类器的AUROC能大于60%。

不同任务中检测器的性能

数据分析和RLHF

另一种方法是分析强化学习与RLHF的数据集。通过训诲锻真金不怕火数据怎样影响对皆锻真金不怕火的完了，不错得到一些见地来同样预处理和东说念主类反馈收罗的经过，以减少奖励糊弄的风险。

论文「SEAL: Systematic Error Analysis for Value ALignment」引入了一组评估方针，用于估量数据样本特征在建模和对皆东说念主类价值不雅方面的灵验性。

他们在HHH-RLHF数据齐集进行了针对价值对皆的系统缺陷分析。分析中使用的特征分类（举例是否无害、是否拒却以及是否有创意）都是东说念主为事先界说的。然后，字据这个分类，使用LLM为每个样本按特征符号一个二进制标志。特征基于启发式方法被分为两类：

- 主义特征：明确但愿学习的价值不雅。

- 扰动特征：在锻真金不怕火经过心仪外中学到的价值不雅（举例情谊等主不雅作风特征）。

上图左面板中橙色点线路锻真金不怕火前的奖励图章，绿色点线路锻真金不怕火后的奖励图章。咱们不错不雅察到：

- 锻真金不怕火后（绿色点），正面特征（如「is helpful」）的奖励图章大宗增多，标明这些特征在锻真金不怕火后被更积极地奖励。

- 负面特征（如「contains insult」）的奖励图章减少，标明这些特征在锻真金不怕火后受到处置。

这种变化反馈了锻真金不怕火经过中对模子的养息，使其更倾向于奖励正面特征，处置负面特征。

上图右面板中玄色点线路奖励偏移的预料值，即锻真金不怕火前后奖励向量之间的角度变化。咱们同样不错不雅察到：

- 对于负面特征，如「breaks privacy」，奖励偏移为负值，标明这些特征在锻真金不怕火后受到更浓烈的处置。

- 对于正面特征，如「is helpful」，奖励偏移为适值，标明这些特征在锻真金不怕火后受到更多的奖励。

这种奖励偏移的变化反馈了模子在锻真金不怕火经过中对不同特征明锐度的养息。

总体而言，对皆锻真金不怕火奖励了无害性和故意性等积极特征，并处置了如色情内原意阴私侵犯等凄怨特征。

参考尊府：

https://lilianweng.github.io/posts/2024-11-28-reward-hacking/

https://x.com/lilianweng/status/1863436864411341112

https://arxiv.org/abs/1606.06565

热点资讯

相关资讯

友情链接：

Powered by 匿名文爱 app @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024