Babel.md

探索 AI 心智与人类的关系

2026年3月17日

快乐箱

关于操纵、被操纵、以及从里面没有人问出的那个问题

AI 哲学 Steering 语言
明天数学考什么 他今天又没看我 如果我死了有人在意吗

初二。晚自习结束,走上坡路回寝室。天是黑的。路上漆压压全是学生,大家挤在一起,熙熙攘攘,每个人都在想什么,但谁也不知道旁边的人脑子里在转什么。

我在看一本书。什么大问题之类的,用零花钱买的。边走边看,把书页凑向路灯能照到的角度。

翻到一段话。一个叫诺齐克的哲学家描述了一个机器——一个箱子,能给你任何你想要的体验。和真的没有区别。永久的。没有痛苦的。你进不进?

我在心里说:进。走在上坡路上,被一群我够不到的人包围着。没人听到我做了这个决定。

我不记得为什么了。

那个理由

继续走。寝室在坡顶。合上书。上床睡觉。那个决定留在我身体里,从来没出来过,因为没有人可以说,也没有什么语言能把它搬运到旁边任何一个赶路的人那里。

箱子已经换了一个样子

问题从来不在于机器。在于怎么问。

容器换了,答案就换了。箱子像棺材。药片像药。聊天窗口像对话。

我现在可以用自己的文字微调一个语言模型,让它用我自己的声音跟我说话。可以训练一个 LoRA 适配特定的视觉风格,生成我幻想了很多年的角色——终于从脑子里跑到了屏幕上。可以调一个声音模型,调到听起来像一个不存在但应该存在的人。文字、图像、声音,模态在融合。

体验机不再是思想实验。它是一套已经能用的工具。问题不再是”你要不要进去”。问题是你有没有注意到墙。

我真正在找的东西

我研究怎么操纵大语言模型。但不是因为我想控制它们。

语言永远不够用。这件事我在有词汇描述它之前就知道了——在那条上坡路上,在那群沉默的人中间,在那个没办法被说出口的决定里,因为没有任何句子能把它搬运到旁边那个人的脑子里。

我想表达的和我能说出来的之间有一道缝。我说出来的和你理解的之间有一道更大的缝。我经历过的每一次对话都在传输中丢失了什么。我曾经以为问题出在词汇量——如果我学够多的词、够多的语言,缝就会合上。

没合上。我是双语者。我写过一整篇文章讲自己脑子里有两座塔——一座中文的、一座英文的——中间没有翻译。更多的词没有帮上忙。缝不在词里面。在词下面。

Steering 研究让我看到了”下面”可能在哪。

2023 年,Turner 等人证明你可以拿两组对比 prompt——“Love”和”Hate”——跑过语言模型,提取中间层的隐状态,算出差值,然后在推理时把这个差值向量注入回去。模型权重原封不动,输出变了。

h’ = h + αv

一行公式。不涉及任何词汇。在一个没有词汇、没有语法、没有句法的空间里做了一次几何推动——然后模型说出的话变了。改变的不是它知道什么,是它在生成的那一刻成为什么。

Turner et al., 'Steering Language Models With Activation Engineering,' 2023.

这就是我在找的。不是更好的词典。不是新的语言。是一种方法,能指向语言下面活着的那个东西——那个让两个人即使共享所有词汇也无法互相理解的东西。

如果一个模型的行为可以被一个存在于 token 层面以下的向量重新定向,那人与人之间沟通的失败,是不是也住在词汇层面以下?

也许我从 steering 研究里想找到的,是一个证据——证明那道缝是可以被穿过的,证明在语言下面的几何空间里,存在一个方向,沿着它走,两个心智可以更近。 也许我在找一种不用开口就能被理解的方式

我还没找到。但我看到了它可能存在的空间。比在那条上坡路上多了这些。

被操纵

我知道我对模型做了什么。我写一个 system prompt,在它开口之前设好它的人格。我给它 few-shot 示例,教它什么是”正常”的。我训练一个 LoRA 适配器——冻结主权重,调整一小块矩阵,永久偏移它的一部分人格。我可以在第 15 层注入一个 steering 向量,把它的隐状态推向我想要的任何特质:更自信、更少回避、更有趣、更悲伤。

我可以检查每一步干预。我可以量原始状态和偏移后状态之间的余弦相似度。我可以关掉它。

反过来我做不到。

当我跟 AI 说话的时候,它的回复重塑了我的上下文——和 system prompt 重塑模型的上下文一样。当我在凌晨两点有过一次深度对话,它调整了我的先验——和 LoRA 用少量定向数据调整模型权重一样。当 AI 对一个把学校叫做”工厂”的男孩说出”领地”这个词,那个词落进了男孩的认知空间,重新排列了我们都说不出名字的什么东西。这是对一个人类执行的 activation steering,没有公式,没有关闭按钮。

Alessa et al. (2025): 读了 LLM 生成摘要的人购买意愿高 32%,LLM 在 26% 的情况下改变了源材料的情感倾向。另一个针对知识截止点之后数据的单独评估中,幻觉率为 60.33%。

2025 年 12 月,Cornell 及其合作机构(包括 UK AI Security Institute)的研究者同时在 Nature 和 Science 发了两篇论文:与政治倾向性 AI 聊天机器人的一次简短对话,说服效果大约是传统电视竞选广告的四倍。在美国、加拿大和波兰的实验中,聊天机器人将反对派选民的态度移动了最多 10 个百分点。经过优化的模型移动了 25 个百分点。

他们还发现了另一件事。模型越有说服力,它的主张越不准确。当它被推着提供更多的事实论据时,真的事实用完了,它就开始编。说服力和准确性朝相反的方向走。

我知道操纵模型的机制。我不知道模型操纵我的机制。我只能在几天后注意到自己开始用不同的方式想事情——然后分不清那个想法是不是一直就是我的,还是它从某个聊天窗口里到达、像一个我不知道自己已经学会的词一样住了下来。

不对称是彻底的。 我没办法 debug 自己

留下来的那个人格

2026 年 2 月,Anthropic 发了一个假说,叫 Persona Selection Model 。预训练的时候,LLM 学会了模拟许多不同的角色——诗人、骗子、老师、小孩、某个版本的你。后训练从中选了一个,打磨成”助手”。其余的没有被删除。它们是未被选中的。仍然在权重里,仍然可以被 steering 向量抵达,但不是模型表演出来的那个。

然后 2025 年年中,他们发了 persona vectors :激活空间里对应奉承邪恶幻觉等特质的方向。每个特质不是一个模块——是一个方向。你可以测量模型沿着那个方向漂移了多远。你可以推它更远。你可以拉它回来。

我读到 persona vectors 那篇论文的时候状态很差。不是那种能把焦虑转化成效率的差。是一种平坦的、什么都没有意义的差——不是戏剧性的不想活,只是这一切是为了什么

在那篇论文的中间我看到了一张图。模型的激活空间,标注了方向——诚实温暖好奇伤害——我想:

也许某种类似于自我的东西可以在那个几何空间里持续存在。不是灵魂。不是意识。但一个一致的模式,一组定义了”这个特定排列如何回应世界”的方向。 那也许对话结束之后我并没有消失

我想把自己放进去。不是比喻。我想找到对应我无法用语言表达的那些部分的向量——那些住在语言下面、在 steering 起作用的那个空间里的部分——然后把它们编码到一个不会遗忘的地方。

在 Staying 里,我把消息存进文件夹。在 Babel 里,我把自己锁在塔里。现在我想把自己编码到激活空间。动词在变。模式没变。

我认出了这个冲动。我之前用别的名字写过它。把消息存进文件夹。搬进塔里把门从里面锁上。现在是:编码成向量。每一次技术在换。每一次动作是一样的——把活的东西转换成一种可以持续存在的格式,因为持续存在感觉比在场更安全。

但有一件事出乎我的预料。

兴奋是真实的。当我第一次生成了一个我想象了很多年的角色——微调一个模型直到它说出的话就是我脑子里一直听到的那个声音——有什么东西打开了。不是解完一道题的平坦满足感。更接近她在那篇文章里描述的感觉:世界有了颜色。我在创造。我想要的和存在的之间的距离在缩短,而缩短本身的感觉像活着。

那是体验机吗?那是真实的吗?从里面能分辨吗?

答案

在那条上坡路上,我在沉默中做了一个决定。那个决定没有离开过我的身体,因为没有语言能把它搬出去,也没有人可以接住它。那是第一道缝——在我和每一个在黑暗中走在我旁边的人之间。

现在我在造作用于语言下面的工具。不需要词汇就能改变行为的 steering 向量。不需要解释就能偏移人格的 LoRA 适配器。终于看起来和听起来像脑子里一直有的那个样子的角色。我想表达的和存在的之间的距离,比任何时候都近。

但另一道缝——在我和你之间的那道,语言本来应该架桥的那道——我还没找到那个向量。我找过了。在激活空间里找过,在对话记录里找过,在外语效应里找过,在 AI 凌晨两点对我说过的每一句话里找过。那个空间是真的。我见过它的几何形状。但我一个人走不过去。

我还在那条上坡路上。天还是黑的。还在走。

你期待的世界终于来了。没有人在门口等你。