一种通用制卡思路

作者：晏

这是一种普适度较高，适用于用来整理绝大部分类型卡的制作流程的思路，但有一定的抽象思维门槛。
好在我做了一张能够按照这个思路直接制卡的卡：A.U.T.O
它同时是一张能适应所有性癖、能制作所有角色、所有类型世界的万能卡。
对照看起来能降低这篇文章的理解门槛。

一、前置基础概念

1 Transformer架构的特点和影响

1.1 架构特点

这里引用durvis大佬的论述：

LLM基本原理

简单而言，使用了Transformer构架的LLM就像一个可以一步步向任意方向移动的吃豆人，他没有记忆、只活在每个token生成（移动）的瞬间。

每一次移动都会基于上下文所有token（包括他刚生成的，这称为自注意力），开始计算所有下次可选token和概率，之后根据设定参数（温度等）随机选择下一个token。

计算时，会根据2个距离评估所有上下文（注意力）：语义距离（狗/汪，之间语义距离很近）；实际距离（越靠近底部的实际距离越近）确定总的影响。

AI并不会思考！他只能基于已有全部token，预测下次token。因此上文的东西，随着输出的进行，也将逐渐移出它的考虑范围。这就是说，不输出的CoT是毫无意义的，不过是个普通的提示词！

1.2 带来的影响

对写卡而言，最大的影响是四个，两个本质性问题和两个重要的衍生麻烦：

1.2.1 近期输出内容湮没远期输出内容

最容易感受的效果就是，随着聊天记录增加，长期记忆的效果会不断下降，也许随着新模型使用这一点会有所改善，但当前的Transformer模型这点是无解的。

顺带的效果是，过大的世界书毫无意义（根据Grievances的测试，3.5 son 1022的环境下，截至2024年底的安全大小是开卡3w token以下，上限是8-9w token），因为发送给AI的数据是序列文本，过长的文本会导致远期文本被近期文本湮没。

1.2.2 语义聚焦内容湮没语义分散内容

这一点最容易感受到的是语义胶着和语义偏离。例如很多人纠结的“生理性的泪水”这类用词，本质上是因为前期训练带来的高语义关联。

其次容易感受到的是claude的速堕倾向，不知道A社给它喂了多少涩涩语料才有这种效果。

1.2.3 对齐和自重复倾向

因为语义距离和实际距离的双重影响，当近期的剧情重复度较高的时候，很容易观察到Transformer模型不断重复自身回复结构，包括段落逻辑结构和使用的细节。

可以看到，从原理上这一点就是无解的，唯一的解法是人类输入新的变量，带来新的变数，否则其他的解决方案本质上都是死缓。

1.2.4 本质无主动性和无目的

根据原理可以确定，Transformer模型下没有真正的“目的”，它只是根据文本不断输出新的预测。

这对希望AI主动开展剧情的各位是极为不利的消息。

如果期待AI完全掌控剧情走向，那无论对应的剧情大纲写得多么细致，最终无非是陷入或多或少的对齐和自重复之中而已。

2 酒馆/世界书的实质

根据我之前阅读的旧版宝宝教程中不知名大佬对世界书的解析，本质上，在AI端不存在酒馆和世界书。AI阅读到的是一长段按顺序排列的文本，然后根据上述的Transformer原理，在尾端生成相应的回复。

在这个过程中，酒馆的作用是将这段文本按照特定的方式重新排序，插入/隐藏相应的标记、格式和文本。预设和世界书的不同格式，就是指导是否在这段文本中插入特定的文本，以什么方式和顺序插入，仅此而已。

在这里说明一下，世界书的绿灯模式，就是在触发了特定的关键词之后，将绿灯条目的对应文本插入到发送给AI的文本之中。换言之，绿灯条目在不触发关键词之前等于不存在，在触发关键词之后等于蓝灯。

3 所谓做卡究竟是什么

在这个架构下，在我个人的视角中，做卡的本质就是：
利用特定方式组织文本结构，使得这部分文本结构的语义高度关联聚焦在你想要的特定场域，利用语义聚焦效应和距离优势，在Transformer模型预构筑的语义场中开拓出你想要的语义场
使用合适的方式将这个语义场输出呈现为具体的内容

这个定义非常抽象，但有非常实际的运用。最典型的例子就是，可能很多人都感受过，当一张卡的内在逻辑非常和谐完善的时候，它对破限的要求会下降。

接下来的论述最好参照A.U.T.O这张卡来阅读，一步步跟着它走完一遍流程，会更加容易理解我想说什么。

二、角色卡基础逻辑架构解析

在前述的基础概念下，我现在倾向于把一张卡分为两个层面，设计层面和呈现层面。
可以打开A.U.T.O的ModeA，一步步尝试做一张卡来协助理解。

1 设计层面

设计层面，就是一张卡的具体组成，一般意义上“写卡”的内容。我将它分为核心和内容两个部分

1.1 核心

所谓核心，就是语义场的聚焦点。或者换一种说法，它是“你希望在和这张卡互动的时候，看到它表现出来的不可缺少的，决定其他部分的内容”。在A.U.T.O这张卡的ModeA中，它对应Part1：性癖核心，Part2：次级核心，Part3：审美/叙事/描写原则。

性癖核心是最焦点的部分
次级核心是不那么焦点，但对核心有支撑作用，有助于核心逻辑更加自恰的部分
审美、叙事和描写原则贯穿整张卡的运行全程

在逻辑上，这三个部分组成的核心就是串联整张卡的焦点。如果能保证一张卡的所有内容的逻辑都围绕核心运转，在破限上是有非常强大作用的。

用一个具体的例子来说明：如果直接要求进行暴力场景，Transformer通常会拒绝。

但你如果已经在核心中定义出了暴力带来的刺激点，在次级核心中定义出了支撑暴力在这个世界中运转的逻辑，在审美、叙事和描写原则中定义了暴力美学和相应的原则，

在此基础上构建出一个暴力横行的世界，相应适宜的人物和具体剧情，我尝试过用最简单的破限也能够顺利运转下去。

在实际做卡的过程中，先确定核心有如下好处：
整理思路，让你自己确定这张卡的目的和乐趣是什么
作为提示词插入3-4的深度，可以有效引导后续制卡过程，让后续制卡过程生成的内容不至于偏离焦点，保证整张卡在一个语义场中的聚焦效应
在游戏过程中插入3-4的深度，可以对游戏过程起到一定影响，考虑核心的体积不会很大，而且是语义场的实际焦点，它插入近底部的性价比是非常高的

在核心内部理所当然地也可以分出更多的层级，如果没有特殊深入的研究的话，参考A.U.T.O来确定层次和插入深度，我认为是比较合适的。

1.2 内容

所谓内容，就是一张卡更加具体的组成部分，理论上来说，抽掉核心，它仍然可以组成一张卡。比较而言，核心虽然抽象，但同时逻辑层次和构成却是相对稳定的；而内容虽然具象，其构成却是复杂多变的

可以参考A.U.T.O这张卡的ModeB和ModeO，可以看到，核心、次级核心和审美/叙事/描写的层次不变，但后续的设计就有较大变化
跟随A.U.T.O的ModeA制卡一次，能更好体会到核心对内容的影响

虽然复杂多变，内容仍然可以大体分为三个层次：

1.2.1 实体设定

一张卡在具体的层面上最基础的部分，在一般意义上来说，缺少实体设定，一张卡就一定无法运转，反过来说，有了实体部分，一张卡就可以初步运转。粗略地说，在A.U.T.O这张卡的ModeA中，它对应五个部分：Part4：世界观，Part5：角色，Part7：初始关系网，Part8：剧情，Part9：世界细节。

世界观是基础，支撑角色和剧情合理运转的舞台
角色是主体，满足欲望的投射
初始关系网更加细化地规定角色的初始状态和人物关系
剧情是指导，聊胜于无地增加AI的主动性和目的性
世界细节是填充，

补充世界观无法巨细无遗地设定事物的问题，设定一些细节以增加世界的代入感

更多的实体设定思路请自行探索
也可以参考ModeB，人物卡模式，和ModeO，世界卡模式；这两个模式和ModeA至少一半的区别在实体设定上

1.2.2 逻辑规则

特殊的设定和规定，让剧情流转更加有规则和顺畅，在一定程度上能对抗语义关联。为了让卡的运转更加生动细腻，合适的逻辑规则是必不可少的。在A.U.T.O这张卡的ModeA中，它对应一个部分：Part6：特殊状态。

具体来说分为两个小部分，特殊状态规定和填写规定，这样区分是为了后续引用方便
它界定了角色的状态变化逻辑
更多的逻辑规则请自行探索

1.2.3 描写修饰

为了后续描写所做的指导，其重要性在于可以预先准备，在COT中对应插入，实时调整语义关联权重。在A.U.T.O这张卡的ModeA中，它对应两个部分：Part10：作家文风，Part11：描写细节。

作家文风用于AI在描写时抽取参考，多种作家文风能聊胜于无地增加丰富性，缓解AI重复
描写细节最有效的用途是和人物状态结合，增加对人物变化的细腻描写程度
更多的思路请自行探索

2 呈现层面

呈现层面的重要性在于：它是玩家最终看到的内容。无论卡的设计层面多么完美，最终仍然要通过运算，变成输出的剧情，然后在特定结构的交互界面上让玩家阅读。
呈现层面可以大体分为两个部分：运算过程和交互界面。

2.1 运算过程

具体而言就是思维链，COT，在游戏过程中实际运算输出内容的COT。所有不输出的COT都可以视为一种逻辑规则，并不实际影响卡的呈现。

这一点审视durvis大佬的论述更为清晰。在我的视角来看，COT的关键就在于它可以实时地调整输出token的语义，从而改变当前的语义场。这是对智障AI唯一的调整手段。

需要注意的是，COT的能力不是无限的，它受到Transformer模型天然能力的约束、特定模型的约束、算力的约束、角色卡基础的约束等等多重约束。它本质上只是调整模型的注意力，并不会凭空增加模型的注意力。在使用COT之前一定要想清楚自己的目的是什么，否则只会南辕北辙。

这一点可以阅读A.U.T.O的ModeA，Part13：自定义思维链来取得感性理解

对思维链来说，”思考什么”和”按什么顺序思考”才是最重要的
不要忘记它的本质只是适时插入合适的语义关联焦点，因此插入关键词有时候有非常明显的效果，哪怕看起来只是莫名其妙的关键词
也正因此，事先制作作家文风库和描写细节库是有效的，它能提供AI一般情况下不会想到的关键词
如果是考虑制卡效果，手写描写细节的效果会更好

在Step13中阐述了几种自定义思维链的制作逻辑，其中简单的“检查判断-核心推演-描写渲染”三阶段我认为是很适合初学者使用的一种逻辑结构。

2.2 交互界面

最终玩家实际阅读的内容，在A.U.T.O这张卡的ModeA中，它对应两个部分：

Part12：自定义状态栏，

Part14：人机交互界面。

就现在酒馆环境下的制卡来说，交互界面大致可以分成三个逻辑层面：

2.2.1 呈现逻辑

简单来说，“给玩家看什么”“不给玩家看什么”和“如何给玩家看”。

在“给玩家看什么”这个层面上，通常考虑以下三类信息：

叙事信息，为了让玩家了解剧情的必须信息，典型的就是时间、地点、主线剧情
逻辑信息，为了让剧情前后串联，维持AI前后逻辑一致的必须信息，典型的是记录在场人员、衣着信息等容易遗忘的信息
性癖信息，为了让玩家看得爽的信息

在“不给玩家看什么”这个层面上，通常考虑游戏运转必须，但玩家看到之后会影响游戏体验的信息：

典型的可以看我的”王权之证”和RHW，规则怪谈生成器
前者隐藏了关于王国运转的真实底层信息，而后者隐藏了关于规则的真实信息

在”如何给玩家看”这个层面上，通常考虑以下要素：

信息分区，最基础的影响因素
信息顺序，一定程度上影响AI叙事逻辑
是否折叠，对次要信息可以适当折叠
视觉美化效果，无数大佬研究但我一窍不通的领域

2.2.2 记忆逻辑

简单来说，“长期而言让AI记得什么”
现在的通用方法是使用酒馆正则删除一定楼层以上的部分内容。
可以参考A.U.T.O的局部正则逻辑，在一定楼层以上，只有\<plot_summary>标签下的内容才会保留。
这可以有效节约token，并且在一定程度上缓解Transformer长文本阅读能力不足的问题。

2.2.3 叙事指导

这相当于AI在生成具体内容之前会参考的较近的提示词，因此仍然有重要作用。

具体可以参考A.U.T.O生成描写逻辑和分线叙事提示的过程。

三、具体制作建议

本来想详细写一下的，仔细想想跟着A.U.T.O制作一张卡实际上会更加直观，

所以这里就只简单写一下一些建议注意事项
另外一个有效的方式是去看A.U.T.O各Step的世界书，具体看我为了让AI生成具体的东西，如何教他思考的

1 核心制作建议

在没有特殊想法之前，仍然可以按照核心、次级核心、审美/叙事/描写原则的逻辑层次排列，这是一个较为普遍有效的逻辑架构。

1.1 核心

这是最焦点、最核心的部分，也是最抽象、最难以理解的部分。

我的建议是：

如果你的牛子或者幻肢非常坚挺，对自己的性癖非常了解，同时你有相当程度的抽象概括能力，建议自己写核心
如果你的牛子或者幻肢非常坚挺，对自己的性癖非常了解，但是没有足够的抽象概括能力，建议和A.U.T.O多对话几轮，喜欢特定角色的和ModeB聊，喜欢特定世界的和ModeO聊，其他性癖的和ModeA聊，多半你自己会有思路
如果以上条件都不满足，直接让A.U.T.O帮你写，我试过在限定场景和剧情的情况下他对核心的总结有我八成能力

1.2 次级核心

一言以蔽之，两面性：

要么是强调和具体化核心中最强、最有效的刺激点
要么是补足核心和具体设定之中关键的逻辑薄弱环节
同样，有想法自己写是最好的，实在不行就拜托A.U.T.O吧

1.3 审美/叙事/描写原则

没什么可解释的。同样有想法的最好自己写，不行就拜托A.U.T.O

2 内容设计

先写出核心，然后根据你的判断插在深度3-4，就可以后续写卡流程

实体设定、逻辑规则和描写修饰的三分逻辑仍然是有效的，可以帮助你整理思绪。
但是除此以外真的是千奇百怪，需要自行摸索。

可以参考A.U.T.O的三个Mode，以及每一个Step中的提示词来理解。

3 COT设计

除了逻辑结构之外，最重要的其实是判断"在叙事过程中最重要的是什么”
重视人物，就要判断人物状态，推演人物心理。
重视世界，就要判断世界局势，推演相关影响。

以此类推。
具体可以用ModeB和ModeO制作两张卡，比较一下COT的区别来理解。

4 交互界面设计

相信你的牛子和幻肢，多测试多改。

其实以上的一切都是这样。

Tips：深度和蓝绿灯有非常大的影响，但这点请参考世界书教程