一种通用制卡思路
作者:晏
这是一种普适度较高,适用于用来整理绝大部分类型卡的制作流程的思路,但有一定的抽象思维门槛。
好在我做了一张能够按照这个思路直接制卡的卡:A.U.T.O
它同时是一张能适应所有性癖、能制作所有角色、所有类型世界的万能卡。
对照看起来能降低这篇文章的理解门槛。
一、前置基础概念
1 Transformer架构的特点和影响
1.1 架构特点
这里引用durvis大佬的论述:
LLM基本原理
简单而言,使用了Transformer构架的LLM就像一个可以一步步向任意方向移动的吃豆人,他没有记忆、只活在每个token生成(移动)的瞬间。
每一次移动都会基于上下文所有token(包括他刚生成的,这称为自注意力),开始计算所有下次可选token和概率,之后根据设定参数(温度等)随机选择下一个token。
计算时,会根据2个距离评估所有上下文(注意力):语义距离(狗/汪,之间语义距离很近);实际距离(越靠近底部的实际距离越近)确定总的影响。
AI并不会思考!他只能基于已有全部token,预测下次token。因此上文的东西,随着输出的进行,也将逐渐移出它的考虑范围。这就是说,不输出的CoT是毫无意义的,不过是个普通的提示词!
1.2 带来的影响
对写卡而言,最大的影响是四个,两个本质性问题和两个重要的衍生麻烦:
1.2.1 近期输出内容湮没远期输出内容
最容易感受的效果就是,随着聊天记录增加,长期记忆的效果会不断下降,也许随着新模型使用这一点会有所改善,但当前的Transformer模型这点是无解的。
顺带的效果是,过大的世界书毫无意义(根据Grievances的测试,3.5 son 1022的环境下,截至2024年底的安全大小是开卡3w token以下,上限是8-9w token),因为发送给AI的数据是序列文本,过长的文本会导致远期文本被近期文本湮没。
1.2.2 语义聚焦内容湮没语义分散内容
这一点最容易感受到的是语义胶着和语义偏离。例如很多人纠结的“生理性的泪水”这类用词,本质上是因为前期训练带来的高语义关联。
其次容易感受到的是claude的速堕倾向,不知道A社给它喂了多少涩涩语料才有这种效果。
1.2.3 对齐和自重复倾向
因为语义距离和实际距离的双重影响,当近期的剧情重复度较高的时候,很容易观察到Transformer模型不断重复自身回复结构,包括段落逻辑结构和使用的细节。
可以看到,从原理上这一点就是无解的,唯一的解法是人类输入新的变量,带来新的变数,否则其他的解决方案本质上都是死缓。
1.2.4 本质无主动性和无目的
根据原理可以确定,Transformer模型下没有真正的“目的”,它只是根据文本不断输出新的预测。
这对希望AI主动开展剧情的各位是极为不利的消息。
如果期待AI完全掌控剧情走向,那无论对应的剧情大纲写得多么细致,最终无非是陷入或多或少的对齐和自重复之中而已。
2 酒馆/世界书的实质
根据我之前阅读的旧版宝宝教程中不知名大佬对世界书的解析,本质上,在AI端不存在酒馆和世界书。AI阅读到的是一长段按顺序排列的文本,然后根据上述的Transformer原理,在尾端生成相应的回复。
在这个过程中,酒馆的作用是将这段文本按照特定的方式重新排序,插入/隐藏相应的标记、格式和文本。预设和世界书的不同格式,就是指导是否在这段文本中插入特定的文本,以什么方式和顺序插入,仅此而已。
在这里说明一下,世界书的绿灯模式,就是在触发了特定的关键词之后,将绿灯条目的对应文本插入到发送给AI的文本之中。换言之,绿灯条目在不触发关键词之前等于不存在,在触发关键词之后等于蓝灯。
3 所谓做卡究竟是什么
-
在这个架构下,在我个人的视角中,做卡的本质就是:
-
利用特定方式组织文本结构,使得这部分文本结构的语义高度关联聚焦在你想要的特定场域,利用语义聚焦效应和距离优势,在Transformer模型预构筑的语义场中开拓出你想要的语义场
-
使用合适的方式将这个语义场输出呈现为具体的内容
这个定义非常抽象,但有非常实际的运用。最典型的例子就是,可能很多人都感受过,当一张卡的内在逻辑非常和谐完善的时候,它对破限的要求会下降。
接下来的论述最好参照A.U.T.O这张卡来阅读,一步步跟着它走完一遍流程,会更加容易理解我想说什么。
二、角色卡基础逻辑架构解析
在前述的基础概念下,我现在倾向于把一张卡分为两个层面,设计层面和呈现层面。
可以打开A.U.T.O的ModeA,一步步尝试做一张卡来协助理解。
1 设计层面
设计层面,就是一张卡的具体组成,一般意义上“写卡”的内容。我将它分为核心和内容两个部分
1.1 核心
所谓核心,就是语义场的聚焦点。或者换一种说法,它是“你希望在和这张卡互动的时候,看到它表现出来的不可缺少的,决定其他部分的内容”。在A.U.T.O这张卡的ModeA中,它对应Part1:性癖核心,Part2:次级核心,Part3:审美/叙事/描写原则。
-
性癖核心是最焦点的部分
-
次级核心是不那么焦点,但对核心有支撑作用,有助于核心逻辑更加自恰的部分
-
审美、叙事和描写原则贯穿整张卡的运行全程
在逻辑上,这三个部分组成的核心就是串联整张卡的焦点。如果能保证一张卡的所有内容的逻辑都围绕核心运转,在破限上是有非常强大作用的。
用一个具体的例子来说明:如果直接要求进行暴力场景,Transformer通常会拒绝。
但你如果已经在核心中定义出了暴力带来的刺激点,在次级核心中定义出了支撑暴力在这个世界中运转的逻辑,在审美、叙事和描写原则中定义了暴力美学和相应的原则,
在此基础上构建出一个暴力横行的世界,相应适宜的人物和具体剧情,我尝试过用最简单的破限也能够顺利运转下去。
-
在实际做卡的过程中,先确定核心有如下好处:
-
整理思路,让你自己确定这张卡的目的和乐趣是什么
-
作为提示词插入3-4的深度,可以有效引导后续制卡过程,让后续制卡过程生成的内容不至于偏离焦点,保证整张卡在一个语义场中的聚焦效应
-
在游戏过程中插入3-4的深度,可以对游戏过程起到一定影响,考虑核心的体积不会很大,而且是语义场的实际焦点,它插入近底部的性价比是非常高的
在核心内部理所当然地也可以分出更多的层级,如果没有特殊深入的研究的话,参考A.U.T.O来确定层次和插入深度,我认为是比较合适的。
1.2 内容
所谓内容,就是一张卡更加具体的组成部分,理论上来说,抽掉核心,它仍然可以组成一张卡。比较而言,核心虽然抽象,但同时逻辑层次和构成却是相对稳定的;而内容虽然具象,其构成却是复杂多变的
-
可以参考A.U.T.O这张卡的ModeB和ModeO,可以看到,核心、次级核心和审美/叙事/描写的层次不变,但后续的设计就有较大变化
-
跟随A.U.T.O的ModeA制卡一次,能更好体会到核心对内容的影响
虽然复杂多变,内容仍然可以大体分为三个层次:
1.2.1 实体设定
一张卡在具体的层面上最基础的部分,在一般意义上来说,缺少实体设定,一张卡就一定无法运转,反过来说,有了实体部分,一张卡就可以初步运转。粗略地说,在A.U.T.O这张卡的ModeA中,它对应五个部分:Part4:世界观,Part5:角色,Part7:初始关系网,Part8:剧情,Part9:世界细节。
-
世界观是基础,支撑角色和剧情合理运转的舞台
-
角色是主体,满足欲望的投射
-
初始关系网更加细化地规定角色的初始状态和人物关系
-
剧情是指导,聊胜于无地增加AI的主动性和目的性
-
世界细节是填充,
补充世界观无法巨细无遗地设定事物的问题,设定一些细节以增加世界的代入感
-
更多的实体设定思路请自行探索
-
也可以参考ModeB,人物卡模式,和ModeO,世界卡模式;这两个模式和ModeA至少一半的区别在实体设定上
1.2.2 逻辑规则
特殊的设定和规定,让剧情流转更加有规则和顺畅,在一定程度上能对抗语义关联。为了让卡的运转更加生动细腻,合适的逻辑规则是必不可少的。在A.U.T.O这张卡的ModeA中,它对应一个部分:Part6:特殊状态。
-
具体来说分为两个小部分,特殊状态规定和填写规定,这样区分是为了后续引用方便
-
它界定了角色的状态变化逻辑
-
更多的逻辑规则请自行探索
1.2.3 描写修饰
为了后续描写所做的指导,其重要性在于可以预先准备,在COT中对应插入,实时调整语义关联权重。在A.U.T.O这张卡的ModeA中,它对应两个部分:Part10:作家文风,Part11:描写细节。
-
作家文风用于AI在描写时抽取参考,多种作家文风能聊胜于无地增加丰富性,缓解AI重复
-
描写细节最有效的用途是和人物状态结合,增加对人物变化的细腻描写程度
-
更多的思路请自行探索
2 呈现层面
呈现层面的重要性在于:它是玩家最终看到的内容。无论卡的设计层面多么完美,最终仍然要通过运算,变成输出的剧情,然后在特定结构的交互界面上让玩家阅读。
呈现层面可以大体分为两个部分:运算过程和交互界面。
2.1 运算过程
具体而言就是思维链,COT,在游戏过程中实际运算输出内容的COT。所有不输出的COT都可以视为一种逻辑规则,并不实际影响卡的呈现。
这一点审视durvis大佬的论述更为清晰。在我的视角来看,COT的关键就在于它可以实时地调整输出token的语义,从而改变当前的语义场。这是对智障AI唯一的调整手段。
需要注意的是,COT的能力不是无限的,它受到Transformer模型天然能力的约束、特定模型的约束、算力的约束、角色卡基础的约束等等多重约束。它本质上只是调整模型的注意力,并不会凭空增加模型的注意力。在使用COT之前一定要想清楚自己的目的是什么,否则只会南辕北辙。
这一点可以阅读A.U.T.O的ModeA,Part13:自定义思维链来取得感性理解
- 对思维链来说,”思考什么”和”按什么顺序思考”才是最重要的
-
不要忘记它的本质只是适时插入合适的语义关联焦点,因此插入关键词有时候有非常明显的效果,哪怕看起来只是莫名其妙的关键词
-
也正因此,事先制作作家文风库和描写细节库是有效的,它能提供AI一般情况下不会想到的关键词
-
如果是考虑制卡效果,手写描写细节的效果会更好
在Step13中阐述了几种自定义思维链的制作逻辑,其中简单的“检查判断-核心推演-描写渲染”三阶段我认为是很适合初学者使用的一种逻辑结构。
2.2 交互界面
最终玩家实际阅读的内容,在A.U.T.O这张卡的ModeA中,它对应两个部分:
Part12:自定义状态栏,
Part14:人机交互界面。
就现在酒馆环境下的制卡来说,交互界面大致可以分成三个逻辑层面:
2.2.1 呈现逻辑
简单来说,“给玩家看什么”“不给玩家看什么”和“如何给玩家看”。
在“给玩家看什么”这个层面上,通常考虑以下三类信息:
-
叙事信息,为了让玩家了解剧情的必须信息,典型的就是时间、地点、主线剧情
-
逻辑信息,为了让剧情前后串联,维持AI前后逻辑一致的必须信息,典型的是记录在场人员、衣着信息等容易遗忘的信息
-
性癖信息,为了让玩家看得爽的信息
在“不给玩家看什么”这个层面上,通常考虑游戏运转必须,但玩家看到之后会影响游戏体验的信息:
-
典型的可以看我的”王权之证”和RHW,规则怪谈生成器
-
前者隐藏了关于王国运转的真实底层信息,而后者隐藏了关于规则的真实信息
在”如何给玩家看”这个层面上,通常考虑以下要素:
-
信息分区,最基础的影响因素
-
信息顺序,一定程度上影响AI叙事逻辑
-
是否折叠,对次要信息可以适当折叠
-
视觉美化效果,无数大佬研究但我一窍不通的领域
2.2.2 记忆逻辑
简单来说,“长期而言让AI记得什么”
现在的通用方法是使用酒馆正则删除一定楼层以上的部分内容。
可以参考A.U.T.O的局部正则逻辑,在一定楼层以上,只有\<plot_summary>标签下的内容才会保留。
这可以有效节约token,并且在一定程度上缓解Transformer长文本阅读能力不足的问题。
2.2.3 叙事指导
这相当于AI在生成具体内容之前会参考的较近的提示词,因此仍然有重要作用。
具体可以参考A.U.T.O生成描写逻辑和分线叙事提示的过程。
三、具体制作建议
本来想详细写一下的,仔细想想跟着A.U.T.O制作一张卡实际上会更加直观,
所以这里就只简单写一下一些建议注意事项
另外一个有效的方式是去看A.U.T.O各Step的世界书,具体看我为了让AI生成具体的东西,如何教他思考的
1 核心制作建议
在没有特殊想法之前,仍然可以按照核心、次级核心、审美/叙事/描写原则的逻辑层次排列,这是一个较为普遍有效的逻辑架构。
1.1 核心
这是最焦点、最核心的部分,也是最抽象、最难以理解的部分。
我的建议是:
-
如果你的牛子或者幻肢非常坚挺,对自己的性癖非常了解,同时你有相当程度的抽象概括能力,建议自己写核心
-
如果你的牛子或者幻肢非常坚挺,对自己的性癖非常了解,但是没有足够的抽象概括能力,建议和A.U.T.O多对话几轮,喜欢特定角色的和ModeB聊,喜欢特定世界的和ModeO聊,其他性癖的和ModeA聊,多半你自己会有思路
-
如果以上条件都不满足,直接让A.U.T.O帮你写,我试过在限定场景和剧情的情况下他对核心的总结有我八成能力
1.2 次级核心
一言以蔽之,两面性:
-
要么是强调和具体化核心中最强、最有效的刺激点
-
要么是补足核心和具体设定之中关键的逻辑薄弱环节
-
同样,有想法自己写是最好的,实在不行就拜托A.U.T.O吧
1.3 审美/叙事/描写原则
没什么可解释的。同样有想法的最好自己写,不行就拜托A.U.T.O
2 内容设计
先写出核心,然后根据你的判断插在深度3-4,就可以后续写卡流程
实体设定、逻辑规则和描写修饰的三分逻辑仍然是有效的,可以帮助你整理思绪。
但是除此以外真的是千奇百怪,需要自行摸索。
可以参考A.U.T.O的三个Mode,以及每一个Step中的提示词来理解。
3 COT设计
除了逻辑结构之外,最重要的其实是判断"在叙事过程中最重要的是什么”
重视人物,就要判断人物状态,推演人物心理。
重视世界,就要判断世界局势,推演相关影响。
以此类推。
具体可以用ModeB和ModeO制作两张卡,比较一下COT的区别来理解。
4 交互界面设计
相信你的牛子和幻肢,多测试多改。
其实以上的一切都是这样。
Tips:深度和蓝绿灯有非常大的影响,但这点请参考世界书教程