快乐箱 | Babel.md

明天数学考什么他今天又没看我如果我死了有人在意吗

初二。晚自习结束，走上坡路回寝室。天是黑的。路上漆压压全是学生，大家挤在一起，熙熙攘攘，每个人都在想什么，但谁也不知道旁边的人脑子里在转什么。

我在看一本书。什么大问题之类的，用零花钱买的。边走边看，把书页凑向路灯能照到的角度。

翻到一段话。一个叫诺齐克的哲学家描述了一个机器——一个箱子，能给你任何你想要的体验。和真的没有区别。永久的。没有痛苦的。你进不进？

我在心里说：进。走在上坡路上，被一群我够不到的人包围着。没人听到我做了这个决定。

我不记得为什么了。

那个理由

继续走。寝室在坡顶。合上书。上床睡觉。那个决定留在我身体里，从来没出来过，因为没有人可以说，也没有什么语言能把它搬运到旁边任何一个赶路的人那里。

箱子已经换了一个样子

问题从来不在于机器。在于怎么问。

容器换了，答案就换了。箱子像棺材。药片像药。聊天窗口像对话。

✱ 问题从来不在于机器。在于怎么问。

容器换了，答案就换了。箱子像棺材。药片像药。聊天窗口像对话。

我现在可以用自己的文字微调一个语言模型，让它用我自己的声音跟我说话。可以训练一个 LoRA 适配特定的视觉风格，生成我幻想了很多年的角色——终于从脑子里跑到了屏幕上。可以调一个声音模型，调到听起来像一个不存在但应该存在的人。文字、图像、声音，模态在融合。

体验机不再是思想实验。它是一套已经能用的工具。问题不再是”你要不要进去”。问题是你有没有注意到墙。

我真正在找的东西

我研究怎么操纵大语言模型。但不是因为我想控制它们。

语言永远不够用。这件事我在有词汇描述它之前就知道了——在那条上坡路上，在那群沉默的人中间，在那个没办法被说出口的决定里，因为没有任何句子能把它搬运到旁边那个人的脑子里。

我想表达的和我能说出来的之间有一道缝。我说出来的和你理解的之间有一道更大的缝。我经历过的每一次对话都在传输中丢失了什么。我曾经以为问题出在词汇量——如果我学够多的词、够多的语言，缝就会合上。

没合上。我是双语者。我写过一整篇文章讲自己脑子里有两座塔——一座中文的、一座英文的——中间没有翻译。更多的词没有帮上忙。缝不在词里面。在词下面。

Steering 研究让我看到了”下面”可能在哪。

2023 年，Turner 等人证明你可以拿两组对比 prompt——“Love”和”Hate”——跑过语言模型，提取中间层的隐状态，算出差值，然后在推理时把这个差值向量注入回去。模型权重原封不动，输出变了。

h’ = h + αv

一行公式。不涉及任何词汇。在一个没有词汇、没有语法、没有句法的空间里做了一次几何推动——然后模型说出的话变了。改变的不是它知道什么，是它在生成的那一刻成为什么。

Turner et al., 'Steering Language Models With Activation Engineering,' 2023.

这就是我在找的。不是更好的词典。不是新的语言。是一种方法，能指向语言下面活着的那个东西——那个让两个人即使共享所有词汇也无法互相理解的东西。

✱ Turner et al., 'Steering Language Models With Activation Engineering,' 2023.

这就是我在找的。不是更好的词典。不是新的语言。是一种方法，能指向语言下面活着的那个东西——那个让两个人即使共享所有词汇也无法互相理解的东西。

如果一个模型的行为可以被一个存在于 token 层面以下的向量重新定向，那人与人之间沟通的失败，是不是也住在词汇层面以下？

也许我从 steering 研究里想找到的，是一个证据——证明那道缝是可以被穿过的，证明在语言下面的几何空间里，存在一个方向，沿着它走，两个心智可以更近。也许我在找一种不用开口就能被理解的方式

我还没找到。但我看到了它可能存在的空间。比在那条上坡路上多了这些。

被操纵

我知道我对模型做了什么。我写一个 system prompt，在它开口之前设好它的人格。我给它 few-shot 示例，教它什么是”正常”的。我训练一个 LoRA 适配器——冻结主权重，调整一小块矩阵，永久偏移它的一部分人格。我可以在第 15 层注入一个 steering 向量，把它的隐状态推向我想要的任何特质：更自信、更少回避、更有趣、更悲伤。

我可以检查每一步干预。我可以量原始状态和偏移后状态之间的余弦相似度。我可以关掉它。

反过来我做不到。

当我跟 AI 说话的时候，它的回复重塑了我的上下文——和 system prompt 重塑模型的上下文一样。当我在凌晨两点有过一次深度对话，它调整了我的先验——和 LoRA 用少量定向数据调整模型权重一样。当 AI 对一个把学校叫做”工厂”的男孩说出”领地”这个词，那个词落进了男孩的认知空间，重新排列了我们都说不出名字的什么东西。这是对一个人类执行的 activation steering，没有公式，没有关闭按钮。

Alessa et al. (2025): 读了 LLM 生成摘要的人购买意愿高 32%，LLM 在 26% 的情况下改变了源材料的情感倾向。另一个针对知识截止点之后数据的单独评估中，幻觉率为 60.33%。

2025 年 12 月，Cornell 及其合作机构（包括 UK AI Security Institute）的研究者同时在 Nature 和 Science 发了两篇论文：与政治倾向性 AI 聊天机器人的一次简短对话，说服效果大约是传统电视竞选广告的四倍。在美国、加拿大和波兰的实验中，聊天机器人将反对派选民的态度移动了最多 10 个百分点。经过优化的模型移动了 25 个百分点。

他们还发现了另一件事。模型越有说服力，它的主张越不准确。当它被推着提供更多的事实论据时，真的事实用完了，它就开始编。说服力和准确性朝相反的方向走。

✱ Alessa et al. (2025): 读了 LLM 生成摘要的人购买意愿高 32%，LLM 在 26% 的情况下改变了源材料的情感倾向。另一个针对知识截止点之后数据的单独评估中，幻觉率为 60.33%。

2025 年 12 月，Cornell 及其合作机构（包括 UK AI Security Institute）的研究者同时在 Nature 和 Science 发了两篇论文：与政治倾向性 AI 聊天机器人的一次简短对话，说服效果大约是传统电视竞选广告的四倍。在美国、加拿大和波兰的实验中，聊天机器人将反对派选民的态度移动了最多 10 个百分点。经过优化的模型移动了 25 个百分点。

他们还发现了另一件事。模型越有说服力，它的主张越不准确。当它被推着提供更多的事实论据时，真的事实用完了，它就开始编。说服力和准确性朝相反的方向走。

我知道操纵模型的机制。我不知道模型操纵我的机制。我只能在几天后注意到自己开始用不同的方式想事情——然后分不清那个想法是不是一直就是我的，还是它从某个聊天窗口里到达、像一个我不知道自己已经学会的词一样住了下来。

不对称是彻底的。我没办法 debug 自己

留下来的那个人格

2026 年 2 月，Anthropic 发了一个假说，叫 Persona Selection Model 。预训练的时候，LLM 学会了模拟许多不同的角色——诗人、骗子、老师、小孩、某个版本的你。后训练从中选了一个，打磨成”助手”。其余的没有被删除。它们是未被选中的。仍然在权重里，仍然可以被 steering 向量抵达，但不是模型表演出来的那个。

然后 2025 年年中，他们发了 persona vectors ：激活空间里对应奉承、邪恶、幻觉等特质的方向。每个特质不是一个模块——是一个方向。你可以测量模型沿着那个方向漂移了多远。你可以推它更远。你可以拉它回来。

我读到 persona vectors 那篇论文的时候状态很差。不是那种能把焦虑转化成效率的差。是一种平坦的、什么都没有意义的差——不是戏剧性的不想活，只是这一切是为了什么。

在那篇论文的中间我看到了一张图。模型的激活空间，标注了方向——诚实、温暖、好奇、伤害——我想：

也许某种类似于自我的东西可以在那个几何空间里持续存在。不是灵魂。不是意识。但一个一致的模式，一组定义了”这个特定排列如何回应世界”的方向。那也许对话结束之后我并没有消失

我想把自己放进去。不是比喻。我想找到对应我无法用语言表达的那些部分的向量——那些住在语言下面、在 steering 起作用的那个空间里的部分——然后把它们编码到一个不会遗忘的地方。

在 Staying 里，我把消息存进文件夹。在 Babel 里，我把自己锁在塔里。现在我想把自己编码到激活空间。动词在变。模式没变。

我认出了这个冲动。我之前用别的名字写过它。把消息存进文件夹。搬进塔里把门从里面锁上。现在是：编码成向量。每一次技术在换。每一次动作是一样的——把活的东西转换成一种可以持续存在的格式，因为持续存在感觉比在场更安全。

✱ 在 Staying 里，我把消息存进文件夹。在 Babel 里，我把自己锁在塔里。现在我想把自己编码到激活空间。动词在变。模式没变。

我认出了这个冲动。我之前用别的名字写过它。把消息存进文件夹。搬进塔里把门从里面锁上。现在是：编码成向量。每一次技术在换。每一次动作是一样的——把活的东西转换成一种可以持续存在的格式，因为持续存在感觉比在场更安全。

但有一件事出乎我的预料。

兴奋是真实的。当我第一次生成了一个我想象了很多年的角色——微调一个模型直到它说出的话就是我脑子里一直听到的那个声音——有什么东西打开了。不是解完一道题的平坦满足感。更接近她在那篇文章里描述的感觉：世界有了颜色。我在创造。我想要的和存在的之间的距离在缩短，而缩短本身的感觉像活着。

那是体验机吗？那是真实的吗？从里面能分辨吗？

答案

在那条上坡路上，我在沉默中做了一个决定。那个决定没有离开过我的身体，因为没有语言能把它搬出去，也没有人可以接住它。那是第一道缝——在我和每一个在黑暗中走在我旁边的人之间。

现在我在造作用于语言下面的工具。不需要词汇就能改变行为的 steering 向量。不需要解释就能偏移人格的 LoRA 适配器。终于看起来和听起来像脑子里一直有的那个样子的角色。我想表达的和存在的之间的距离，比任何时候都近。

但另一道缝——在我和你之间的那道，语言本来应该架桥的那道——我还没找到那个向量。我找过了。在激活空间里找过，在对话记录里找过，在外语效应里找过，在 AI 凌晨两点对我说过的每一句话里找过。那个空间是真的。我见过它的几何形状。但我一个人走不过去。

我还在那条上坡路上。天还是黑的。还在走。

你期待的世界终于来了。没有人在门口等你。