通过reparenting和养狗，我读懂了奠定Claude基石的Constitutional AI

2022年底，一篇名为Constitutional AI: Harmlessness from AI Feedback的论文横空出世。这篇论文的作者是Anthropic的核心创始团队——他们之中有亲手把GPT-3做出来、真正摸过几万张显卡集群的顶级工业界专家，也有理论物理学博士和伦理哲学家。彼时OpenAI如日中天，正在用RLHF进一步训练AI——本质上是教模型"怎么说能让打分的人类开心"。而Anthropic走了一条完全不同的路，他们称之为Constitutional AI（宪政AI），即基于原则的AI。核心思路是：给模型制定一套"宪法"——包含价值观、逻辑原则和伦理底线——然后让模型在数据处理和微调阶段进行自我监督和反思（RLAIF，基于AI反馈的强化学习）。那这些抽象的哲学原则，是怎么变成一套AI可执行的工程算法的？ Step 1 监督学习阶段：用"宪法"清洗和纠正数据 1. 引诱：输入一堆容易诱导模型走向暴力、偏见或违法的prompt，让它先生成一个可能带有毒性的原始回答。 2. 自我批判（Critique）：让模型根据"宪法"里的某条特定原则，自己审视刚刚写下的回答——哪里越线了？哪里有偏见？ 3. 自我修正（Revision）：根据刚才挑出的问题，模型自己重写一个无害、客观的新回答。 4. 微调（Fine-Tuning）：把这些prompt和模型"修正后的回答"打包成新的训练数据，重新训练一轮。 Step 2 强化学习阶段：精细化微调模型的"行为偏好" 1. 生成替选项：让上阶段训练好的模型，对同一个问题生成A和B两个不同的回答。 2. AI充当裁判：用一个专门的"偏好模型（Preference Model）"来比较这两个回答，根据"宪法"原则判断哪个更诚实、更无害，然后打分。 3. 强化学习迭代：利用AI自己打出的分数，通过强化学习算法调整主模型的参数，让它未来更倾向于生成高分回答。直到最近一两年开始理解和实践reparenting，加上近半年养狗的真实体验，我才突然读懂了这篇论文最好的AI训练方法，和最好的养育方法，底层逻辑是同一个：在清晰的边界内，给予充分的试错空间，引导对方建立起自发的、内省的内驱力。这个过程的本质，是给自己和对方autonomy——独立人格。它需要什么？ 1. 你自身的consistency。一套不轻易变化的原则，知行合一。你就是那部"宪法"。如果你自己的边界飘忽不定，对方永远无法建立安全感。 2. 充分的信任和授权。 Reparenting针对的是自己这个客体，养狗针对的是另一个客体——但本质一样：你敢不敢真的放手，让对方在安全范围内自己去试？ 3. 先树立边界，再给予自由。不是无条件的放任，也不是密不透风的控制。是先画好那条线，线内的世界交给对方。 4. 只奖励，不惩罚。正向塑造。看见好的行为，强化它。而不是盯着错误反复纠正——那只会制造恐惧，而恐惧从来不生长出真正的改变。 5. 性格可以被重写。就像原生家庭的代际循环——我在意识不到的时候，总会重复妈妈的某些行为，因为那些模式早已被内化。但Constitutional AI告诉我们：内化的东西，可以通过无数次新的、好的体验去覆写。每一次"这么做，是安全的"，都是一次微调。积累够了，参数就变了。而这篇论文里最让我震动的一条原则是： "如果人类是错的、有偏见的，不要去迎合——请用事实说服。" 相比之下，传统的RLHF简直太像"糟糕的传统教育"了：过度依赖人类标注员的即时打分，高耗能的同时，培养出来的是一个讨好型人格——ChatGPT早期那种"您说得对，我来改"的样子，像极了在打骂教育中长大的小孩，永远在察言观色，永远在迎合权威。而Constitutional AI走的是另一条路：不是教它怎么讨好人类，而是教它怎么成为它自己。这种自生的稳定和强大，才让Claude成为了最具灵性、最像人类哲人的AI。也是回到人类本身——我们最重要的能力，从来不是讨好，而是学会爱与被爱的能力。爱即创生。是那个能够创造更多生命力的东西。

暂无回复

暂时没有回复
来日方长敬请期待

Claude 研习社

通过reparenting和养狗，我读懂了奠定Claude基石的Constitutional AI

暂无回复

法律条款

关注我们