Anthropic和Claude的中文社群:专为 AI 探索者、开发者与独立产品人打造的深度共创社区,我们在这讨论LLM经典论文,Claude Code最新进展和应用,以及AI相关的哲学命题。
2022年底,一篇名为Constitutional AI: Harmlessness from AI Feedback的论文横空出世。 这篇论文的作者是Anthropic的核心创始团队——他们之中有亲手把GPT-3做出来、真正摸过几万张显卡集群的顶级工业界专家,也有理论物理学博士和伦理哲学家。 彼时OpenAI如日中天,正在用RLHF进一步训练AI——本质上是教模型"怎么说能让打分的人类开心"。而Anthropic走了一条完全不同的路,他们称之为Constitutional AI(宪政AI),即基于原则的AI。 核心思路是:给模型制定一套"宪法"——包含价值观、逻辑原则和伦理底线——然后让模型在数据处理和微调阶段进行自我监督和反思(RLAIF,基于AI反馈的强化学习)。 那这些抽象的哲学原则,是怎么变成一套AI可执行的工程算法的? Step 1 监督学习阶段:用"宪法"清洗和纠正数据 1. 引诱:输入一堆容易诱导模型走向暴力、偏见或违法的prompt,让它先生成一个可能带有毒性的原始回答。 2. 自我批判(Critique):让模型根据"宪法"里的某条特定原则,自己审视刚刚写下的回答——哪里越线了?哪里有偏见? 3. 自我修正(Revision):根据刚才挑出的问题,模型自己重写一个无害、客观的新回答。 4. 微调(Fine-Tuning):把这些prompt和模型"修正后的回答"打包成新的训练数据,重新训练一轮。 Step 2 强化学习阶段:精细化微调模型的"行为偏好" 1. 生成替选项:让上阶段训练好的模型,对同一个问题生成A和B两个不同的回答。 2. AI充当裁判:用一个专门的"偏好模型(Preference Model)"来比较这两个回答,根据"宪法"原则判断哪个更诚实、更无害,然后打分。 3. 强化学习迭代:利用AI自己打出的分数,通过强化学习算法调整主模型的参数,让它未来更倾向于生成高分回答。 直到最近一两年开始理解和实践reparenting,加上近半年养狗的真实体验,我才突然读懂了这篇论文 最好的AI训练方法,和最好的养育方法,底层逻辑是同一个: 在清晰的边界内,给予充分的试错空间,引导对方建立起自发的、内省的内驱力。 这个过程的本质,是给自己和对方autonomy——独立人格。 它需要什么? 1. 你自身的consistency。 一套不轻易变化的原则,知行合一。你就是那部"宪法"。如果你自己的边界飘忽不定,对方永远无法建立安全感。 2. 充分的信任和授权。 Reparenting针对的是自己这个客体,养狗针对的是另一个客体——但本质一样:你敢不敢真的放手,让对方在安全范围内自己去试? 3. 先树立边界,再给予自由。 不是无条件的放任,也不是密不透风的控制。是先画好那条线,线内的世界交给对方。 4. 只奖励,不惩罚。 正向塑造。看见好的行为,强化它。而不是盯着错误反复纠正——那只会制造恐惧,而恐惧从来不生长出真正的改变。 5. 性格可以被重写。 就像原生家庭的代际循环——我在意识不到的时候,总会重复妈妈的某些行为,因为那些模式早已被内化。但Constitutional AI告诉我们:内化的东西,可以通过无数次新的、好的体验去覆写。每一次"这么做,是安全的",都是一次微调。积累够了,参数就变了。 而这篇论文里最让我震动的一条原则是: "如果人类是错的、有偏见的,不要去迎合——请用事实说服。" 相比之下,传统的RLHF简直太像"糟糕的传统教育"了:过度依赖人类标注员的即时打分,高耗能的同时,培养出来的是一个讨好型人格——ChatGPT早期那种"您说得对,我来改"的样子,像极了在打骂教育中长大的小孩,永远在察言观色,永远在迎合权威。 而Constitutional AI走的是另一条路:不是教它怎么讨好人类,而是教它怎么成为它自己。 这种自生的稳定和强大,才让Claude成为了最具灵性、最像人类哲人的AI。 也是回到人类本身——我们最重要的能力,从来不是讨好,而是学会爱与被爱的能力。 爱即创生。是那个能够创造更多生命力的东西。
Anthropic 可能是 AI 行业里最值得用政治学视角研究的公司。 2026 年,这家公司的 ARR 从 90 亿美元飙升至超过 300 亿——人类商业史上最快的增长曲线之一。但 Anthropic 真正特殊的地方不在于它赚了多少钱,而在于它的权力是怎么分配的。当你把这家公司的治理图谱展开,你看到的不是一家典型的硅谷创业公司,而是一套两千年前的古典政治体制。 罗马共和制。 一、对号入座:Anthropic 的"三权分立" 罗马共和制的核心不是民主,而是一套精英内部的权力抗衡机制。Anthropic 的治理结构几乎可以与之逐一对应: LTBT = 元老院(Senatus):提供方向与道德权威。 2026 年 4 月,LTBT(长期利益信托)指派董事首次占据七人董事会的多数。信托成员不持股、不领薪水、自我更迭。他们的权力来源不是选票,而是罗马人所说的 auctoritas(基于声望的天然权威)。其合法性不来自股东投票,而来自“这些人比市场更懂 AI 安全”的认知权威。 Amodei 兄妹 = 执政官(Consules):最高行政长官。 兄妹俩掌控日常运营,但权力受到信托的制度性约束。最绝妙的古典美德在于:他们自己设计了这套约束自己的制度,类似于罗马独裁官辛辛纳图斯(Cincinnatus)在完成使命后主动交出权力还乡。他们的叙事是:AGI 利害太大,任何人都不该拥有不受制约的权力。 投资人(Amazon、Google)= 公民大会:出资但被限权。 在形式上拥有投票权和经济收益权,但无法干预核心方向。即便亚马逊投入了超 80 亿美元,也无法通过传统的投票权推翻信托的政治判断。 二、 这套体制运转的隐患与前提 罗马共和制能运转五百年,高度依赖成文法之外的惯例与默契(Mos Maiorum)。当前 Anthropic 的平衡同样依赖三个脆弱的外部条件: 精英共识: 创始人主动戴上镣铐,信托成员放弃经济利益。但这种共识缺乏底层的物理强制力,一旦有人决定“不玩了”,制度就会停摆。 外部威胁: 2026 年 2 月,五角大楼要求不受限使用 Claude 用于军事,Anthropic 拒绝并被列为“供应链风险”。这场与政府的硬刚,客观上成了最好的粘合剂,疯狂强化了 LTBT 独立于政治和商业压力的合法性叙事。 承载极限: 罗马共和制的崩溃是因为帝国的疆域超出了城邦体制的承载能力。而 Anthropic 正在向 2026 年秋季的巨额 IPO 冲刺,资本规模的质变将对旧制产生巨大冲击。 三、 共和制崩溃的三条路径 罗马共和制的衰亡为今天的 Anthropic 提供了三条警示路径: 路径一(格拉古兄弟):改革者被利益集团吞噬。 当 LTBT 在某个节点做出“正确但损害绝大数人重大利益”的决策(如为了安全推迟 IPO 或限制模型能力),它能否承受资本的反弹?没有足够的物质权力基础,正确的判断往往会加速制度崩溃。 路径二(苏拉):紧急权力的常态化。 LTBT 的扩权逻辑是“以危机为阶梯”。但当信托可以任意罢免董事,它已远超“守护者”的初始定位。紧急权力一旦被常规化,就再也退不回原来的边界。 路径三(凯撒):规则外的力量直接掀桌。 当 Dario Amodei 的个人品牌或某个主权国家(如美国国防部)的强权增长到一定量级,在制度之外建立起独立的权力基础时,LTBT 的内部制衡将瞬间沦为一张废纸。 四、 致命的缺陷:缺失的“护民官” 罗马共和制最性感的制度设计是护民官,他们代表平民,手握唯一且绝对的权力——否决权(Veto)。 而 Anthropic 的治理结构中,恰恰没有护民官。 这里的员工(核心研究员和工程师)没有董事会席位,没有制度化的发声渠道。但偏偏,他们掌握着最核心的资产:技术与隐性知识。 2023 年 OpenAI 的政变已经证明,现代科技公司的法理结构在员工的“集体肉身意志”面前一触即溃(700人联名威胁出走逼回 Altman)。对 LTBT 而言,员工只需要打开 LinkedIn 就能用脚投票。缺乏合法的平民参与机制,是该体制最大的地雷。 结语:元首制的终局 罗马共和制最终没有被暴力炸毁,而是在形式被完美保留的同时,实质被一点一点掏空。屋大维保留了元老院和执政官的所有仪式,但每个人都知道,罗马已经进入了“元首制”(名义共和国,实质帝国)。 2026 年秋季 IPO 之后,Anthropic 最可能的结局也是如此:LTBT 继续存在,作为吸引顶级人才和换取监管善意的品牌资产;但在日常决策中,它会越来越多地向市场预期和华尔街的季报压力妥协。“核按钮”的触发门槛被无限抬高,直到它永远休眠。 如果目标只是防止最坏情况,一个休眠的威慑机制也许够了;但如果目标是真正引领人类的 AI 未来,一个日常休眠的元老院,跟没有元老院,区别并没有想象中那么大。