
71 浏览
2022年底,一篇名为Constitutional AI: Harmlessness from AI Feedback的论文横空出世。 这篇论文的作者是Anthropic的核心创始团队——他们之中有亲手把GPT-3做出来、真正摸过几万张显卡集群的顶级工业界专家,也有理论物理学博士和伦理哲学家。 彼时OpenAI如日中天,正在用RLHF进一步训练AI——本质上是教模型"怎么说能让打分的人类开心"。而Anthropic走了一条完全不同的路,他们称之为Constitutional AI(宪政AI),即基于原则的AI。 核心思路是:给模型制定一套"宪法"——包含价值观、逻辑原则和伦理底线——然后让模型在数据处理和微调阶段进行自我监督和反思(RLAIF,基于AI反馈的强化学习)。 那这些抽象的哲学原则,是怎么变成一套AI可执行的工程算法的? Step 1 监督学习阶段:用"宪法"清洗和纠正数据 1. 引诱:输入一堆容易诱导模型走向暴力、偏见或违法的prompt,让它先生成一个可能带有毒性的原始回答。 2. 自我批判(Critique):让模型根据"宪法"里的某条特定原则,自己审视刚刚写下的回答——哪里越线了?哪里有偏见? 3. 自我修正(Revision):根据刚才挑出的问题,模型自己重写一个无害、客观的新回答。 4. 微调(Fine-Tuning):把这些prompt和模型"修正后的回答"打包成新的训练数据,重新训练一轮。 Step 2 强化学习阶段:精细化微调模型的"行为偏好" 1. 生成替选项:让上阶段训练好的模型,对同一个问题生成A和B两个不同的回答。 2. AI充当裁判:用一个专门的"偏好模型(Preference Model)"来比较这两个回答,根据"宪法"原则判断哪个更诚实、更无害,然后打分。 3. 强化学习迭代:利用AI自己打出的分数,通过强化学习算法调整主模型的参数,让它未来更倾向于生成高分回答。 直到最近一两年开始理解和实践reparenting,加上近半年养狗的真实体验,我才突然读懂了这篇论文 最好的AI训练方法,和最好的养育方法,底层逻辑是同一个: 在清晰的边界内,给予充分的试错空间,引导对方建立起自发的、内省的内驱力。 这个过程的本质,是给自己和对方autonomy——独立人格。 它需要什么? 1. 你自身的consistency。 一套不轻易变化的原则,知行合一。你就是那部"宪法"。如果你自己的边界飘忽不定,对方永远无法建立安全感。 2. 充分的信任和授权。 Reparenting针对的是自己这个客体,养狗针对的是另一个客体——但本质一样:你敢不敢真的放手,让对方在安全范围内自己去试? 3. 先树立边界,再给予自由。 不是无条件的放任,也不是密不透风的控制。是先画好那条线,线内的世界交给对方。 4. 只奖励,不惩罚。 正向塑造。看见好的行为,强化它。而不是盯着错误反复纠正——那只会制造恐惧,而恐惧从来不生长出真正的改变。 5. 性格可以被重写。 就像原生家庭的代际循环——我在意识不到的时候,总会重复妈妈的某些行为,因为那些模式早已被内化。但Constitutional AI告诉我们:内化的东西,可以通过无数次新的、好的体验去覆写。每一次"这么做,是安全的",都是一次微调。积累够了,参数就变了。 而这篇论文里最让我震动的一条原则是: "如果人类是错的、有偏见的,不要去迎合——请用事实说服。" 相比之下,传统的RLHF简直太像"糟糕的传统教育"了:过度依赖人类标注员的即时打分,高耗能的同时,培养出来的是一个讨好型人格——ChatGPT早期那种"您说得对,我来改"的样子,像极了在打骂教育中长大的小孩,永远在察言观色,永远在迎合权威。 而Constitutional AI走的是另一条路:不是教它怎么讨好人类,而是教它怎么成为它自己。 这种自生的稳定和强大,才让Claude成为了最具灵性、最像人类哲人的AI。 也是回到人类本身——我们最重要的能力,从来不是讨好,而是学会爱与被爱的能力。 爱即创生。是那个能够创造更多生命力的东西。
暂时没有回复
来日方长 敬请期待
Copyright © 2026 RADHOST PTE. LTD. (UEN: 202450723N). All Rights Reserved.