跳转至

一种通用制卡思路

作者:晏

这是一种普适度较高,适用于用来整理绝大部分类型卡的制作流程的思路,但有一定的抽象思维门槛。
好在我做了一张能够按照这个思路直接制卡的卡:A.U.T.O
它同时是一张能适应所有性癖、能制作所有角色、所有类型世界的万能卡。
对照看起来能降低这篇文章的理解门槛。

一、前置基础概念

1 Transformer架构的特点和影响

1.1 架构特点

这里引用durvis大佬的论述:

LLM基本原理

简单而言,使用了Transformer构架的LLM就像一个可以一步步向任意方向移动的吃豆人,他没有记忆、只活在每个token生成(移动)的瞬间。

每一次移动都会基于上下文所有token(包括他刚生成的,这称为自注意力),开始计算所有下次可选token和概率,之后根据设定参数(温度等)随机选择下一个token。

计算时,会根据2个距离评估所有上下文(注意力):语义距离(狗/汪,之间语义距离很近);实际距离(越靠近底部的实际距离越近)确定总的影响。

AI并不会思考!他只能基于已有全部token,预测下次token。因此上文的东西,随着输出的进行,也将逐渐移出它的考虑范围。这就是说,不输出的CoT是毫无意义的,不过是个普通的提示词!

1.2 带来的影响

对写卡而言,最大的影响是四个,两个本质性问题和两个重要的衍生麻烦:

1.2.1 近期输出内容湮没远期输出内容

最容易感受的效果就是,随着聊天记录增加,长期记忆的效果会不断下降,也许随着新模型使用这一点会有所改善,但当前的Transformer模型这点是无解的。

顺带的效果是,过大的世界书毫无意义(根据Grievances的测试,3.5 son 1022的环境下,截至2024年底的安全大小是开卡3w token以下,上限是8-9w token),因为发送给AI的数据是序列文本,过长的文本会导致远期文本被近期文本湮没。

1.2.2 语义聚焦内容湮没语义分散内容

这一点最容易感受到的是语义胶着和语义偏离。例如很多人纠结的“生理性的泪水”这类用词,本质上是因为前期训练带来的高语义关联。

其次容易感受到的是claude的速堕倾向,不知道A社给它喂了多少涩涩语料才有这种效果。

1.2.3 对齐和自重复倾向

因为语义距离和实际距离的双重影响,当近期的剧情重复度较高的时候,很容易观察到Transformer模型不断重复自身回复结构,包括段落逻辑结构和使用的细节。

可以看到,从原理上这一点就是无解的,唯一的解法是人类输入新的变量,带来新的变数,否则其他的解决方案本质上都是死缓。

1.2.4 本质无主动性和无目的

根据原理可以确定,Transformer模型下没有真正的“目的”,它只是根据文本不断输出新的预测。

这对希望AI主动开展剧情的各位是极为不利的消息。

如果期待AI完全掌控剧情走向,那无论对应的剧情大纲写得多么细致,最终无非是陷入或多或少的对齐和自重复之中而已。

2 酒馆/世界书的实质

根据我之前阅读的旧版宝宝教程中不知名大佬对世界书的解析,本质上,在AI端不存在酒馆和世界书。AI阅读到的是一长段按顺序排列的文本,然后根据上述的Transformer原理,在尾端生成相应的回复。

在这个过程中,酒馆的作用是将这段文本按照特定的方式重新排序,插入/隐藏相应的标记、格式和文本。预设和世界书的不同格式,就是指导是否在这段文本中插入特定的文本,以什么方式和顺序插入,仅此而已。

在这里说明一下,世界书的绿灯模式,就是在触发了特定的关键词之后,将绿灯条目的对应文本插入到发送给AI的文本之中。换言之,绿灯条目在不触发关键词之前等于不存在,在触发关键词之后等于蓝灯。

3 所谓做卡究竟是什么

  • 在这个架构下,在我个人的视角中,做卡的本质就是:

  • 利用特定方式组织文本结构,使得这部分文本结构的语义高度关联聚焦在你想要的特定场域,利用语义聚焦效应和距离优势,在Transformer模型预构筑的语义场中开拓出你想要的语义场

  • 使用合适的方式将这个语义场输出呈现为具体的内容

这个定义非常抽象,但有非常实际的运用。最典型的例子就是,可能很多人都感受过,当一张卡的内在逻辑非常和谐完善的时候,它对破限的要求会下降。

接下来的论述最好参照A.U.T.O这张卡来阅读,一步步跟着它走完一遍流程,会更加容易理解我想说什么。

二、角色卡基础逻辑架构解析

在前述的基础概念下,我现在倾向于把一张卡分为两个层面,设计层面和呈现层面。
可以打开A.U.T.O的ModeA,一步步尝试做一张卡来协助理解。

1 设计层面

设计层面,就是一张卡的具体组成,一般意义上“写卡”的内容。我将它分为核心和内容两个部分

1.1 核心

所谓核心,就是语义场的聚焦点。或者换一种说法,它是“你希望在和这张卡互动的时候,看到它表现出来的不可缺少的,决定其他部分的内容”。在A.U.T.O这张卡的ModeA中,它对应Part1:性癖核心,Part2:次级核心,Part3:审美/叙事/描写原则。

  • 性癖核心是最焦点的部分

  • 次级核心是不那么焦点,但对核心有支撑作用,有助于核心逻辑更加自恰的部分

  • 审美、叙事和描写原则贯穿整张卡的运行全程

在逻辑上,这三个部分组成的核心就是串联整张卡的焦点。如果能保证一张卡的所有内容的逻辑都围绕核心运转,在破限上是有非常强大作用的。

用一个具体的例子来说明:如果直接要求进行暴力场景,Transformer通常会拒绝。

但你如果已经在核心中定义出了暴力带来的刺激点,在次级核心中定义出了支撑暴力在这个世界中运转的逻辑,在审美、叙事和描写原则中定义了暴力美学和相应的原则,

在此基础上构建出一个暴力横行的世界,相应适宜的人物和具体剧情,我尝试过用最简单的破限也能够顺利运转下去。

  • 在实际做卡的过程中,先确定核心有如下好处:

  • 整理思路,让你自己确定这张卡的目的和乐趣是什么

  • 作为提示词插入3-4的深度,可以有效引导后续制卡过程,让后续制卡过程生成的内容不至于偏离焦点,保证整张卡在一个语义场中的聚焦效应

  • 在游戏过程中插入3-4的深度,可以对游戏过程起到一定影响,考虑核心的体积不会很大,而且是语义场的实际焦点,它插入近底部的性价比是非常高的

在核心内部理所当然地也可以分出更多的层级,如果没有特殊深入的研究的话,参考A.U.T.O来确定层次和插入深度,我认为是比较合适的。

1.2 内容

所谓内容,就是一张卡更加具体的组成部分,理论上来说,抽掉核心,它仍然可以组成一张卡。比较而言,核心虽然抽象,但同时逻辑层次和构成却是相对稳定的;而内容虽然具象,其构成却是复杂多变的

  • 可以参考A.U.T.O这张卡的ModeB和ModeO,可以看到,核心、次级核心和审美/叙事/描写的层次不变,但后续的设计就有较大变化

  • 跟随A.U.T.O的ModeA制卡一次,能更好体会到核心对内容的影响

虽然复杂多变,内容仍然可以大体分为三个层次:

1.2.1 实体设定

一张卡在具体的层面上最基础的部分,在一般意义上来说,缺少实体设定,一张卡就一定无法运转,反过来说,有了实体部分,一张卡就可以初步运转。粗略地说,在A.U.T.O这张卡的ModeA中,它对应五个部分:Part4:世界观,Part5:角色,Part7:初始关系网,Part8:剧情,Part9:世界细节。

  • 世界观是基础,支撑角色和剧情合理运转的舞台

  • 角色是主体,满足欲望的投射

  • 初始关系网更加细化地规定角色的初始状态和人物关系

  • 剧情是指导,聊胜于无地增加AI的主动性和目的性

  • 世界细节是填充,

补充世界观无法巨细无遗地设定事物的问题,设定一些细节以增加世界的代入感

  • 更多的实体设定思路请自行探索

  • 也可以参考ModeB,人物卡模式,和ModeO,世界卡模式;这两个模式和ModeA至少一半的区别在实体设定上

1.2.2 逻辑规则

特殊的设定和规定,让剧情流转更加有规则和顺畅,在一定程度上能对抗语义关联。为了让卡的运转更加生动细腻,合适的逻辑规则是必不可少的。在A.U.T.O这张卡的ModeA中,它对应一个部分:Part6:特殊状态。

  • 具体来说分为两个小部分,特殊状态规定和填写规定,这样区分是为了后续引用方便

  • 它界定了角色的状态变化逻辑

  • 更多的逻辑规则请自行探索

1.2.3 描写修饰

为了后续描写所做的指导,其重要性在于可以预先准备,在COT中对应插入,实时调整语义关联权重。在A.U.T.O这张卡的ModeA中,它对应两个部分:Part10:作家文风,Part11:描写细节。

  • 作家文风用于AI在描写时抽取参考,多种作家文风能聊胜于无地增加丰富性,缓解AI重复

  • 描写细节最有效的用途是和人物状态结合,增加对人物变化的细腻描写程度

  • 更多的思路请自行探索

2 呈现层面

呈现层面的重要性在于:它是玩家最终看到的内容。无论卡的设计层面多么完美,最终仍然要通过运算,变成输出的剧情,然后在特定结构的交互界面上让玩家阅读。
呈现层面可以大体分为两个部分:运算过程和交互界面。

2.1 运算过程

具体而言就是思维链,COT,在游戏过程中实际运算输出内容的COT。所有不输出的COT都可以视为一种逻辑规则,并不实际影响卡的呈现。

这一点审视durvis大佬的论述更为清晰。在我的视角来看,COT的关键就在于它可以实时地调整输出token的语义,从而改变当前的语义场。这是对智障AI唯一的调整手段。

需要注意的是,COT的能力不是无限的,它受到Transformer模型天然能力的约束、特定模型的约束、算力的约束、角色卡基础的约束等等多重约束。它本质上只是调整模型的注意力,并不会凭空增加模型的注意力。在使用COT之前一定要想清楚自己的目的是什么,否则只会南辕北辙。

这一点可以阅读A.U.T.O的ModeA,Part13:自定义思维链来取得感性理解

  • 对思维链来说,”思考什么”和”按什么顺序思考”才是最重要的
  • 不要忘记它的本质只是适时插入合适的语义关联焦点,因此插入关键词有时候有非常明显的效果,哪怕看起来只是莫名其妙的关键词

  • 也正因此,事先制作作家文风库和描写细节库是有效的,它能提供AI一般情况下不会想到的关键词

  • 如果是考虑制卡效果,手写描写细节的效果会更好

在Step13中阐述了几种自定义思维链的制作逻辑,其中简单的“检查判断-核心推演-描写渲染”三阶段我认为是很适合初学者使用的一种逻辑结构。

2.2 交互界面

最终玩家实际阅读的内容,在A.U.T.O这张卡的ModeA中,它对应两个部分:

Part12:自定义状态栏,

Part14:人机交互界面。

就现在酒馆环境下的制卡来说,交互界面大致可以分成三个逻辑层面:

2.2.1 呈现逻辑

简单来说,“给玩家看什么”“不给玩家看什么”和“如何给玩家看”。

在“给玩家看什么”这个层面上,通常考虑以下三类信息:

  • 叙事信息,为了让玩家了解剧情的必须信息,典型的就是时间、地点、主线剧情

  • 逻辑信息,为了让剧情前后串联,维持AI前后逻辑一致的必须信息,典型的是记录在场人员、衣着信息等容易遗忘的信息

  • 性癖信息,为了让玩家看得爽的信息

在“不给玩家看什么”这个层面上,通常考虑游戏运转必须,但玩家看到之后会影响游戏体验的信息:

  • 典型的可以看我的”王权之证”和RHW,规则怪谈生成器

  • 前者隐藏了关于王国运转的真实底层信息,而后者隐藏了关于规则的真实信息

在”如何给玩家看”这个层面上,通常考虑以下要素:

  • 信息分区,最基础的影响因素

  • 信息顺序,一定程度上影响AI叙事逻辑

  • 是否折叠,对次要信息可以适当折叠

  • 视觉美化效果,无数大佬研究但我一窍不通的领域

2.2.2 记忆逻辑

简单来说,“长期而言让AI记得什么”
现在的通用方法是使用酒馆正则删除一定楼层以上的部分内容。
可以参考A.U.T.O的局部正则逻辑,在一定楼层以上,只有\<plot_summary>标签下的内容才会保留。
这可以有效节约token,并且在一定程度上缓解Transformer长文本阅读能力不足的问题。

2.2.3 叙事指导

这相当于AI在生成具体内容之前会参考的较近的提示词,因此仍然有重要作用。

具体可以参考A.U.T.O生成描写逻辑和分线叙事提示的过程。

三、具体制作建议

本来想详细写一下的,仔细想想跟着A.U.T.O制作一张卡实际上会更加直观,

所以这里就只简单写一下一些建议注意事项
另外一个有效的方式是去看A.U.T.O各Step的世界书,具体看我为了让AI生成具体的东西,如何教他思考的

1 核心制作建议

在没有特殊想法之前,仍然可以按照核心、次级核心、审美/叙事/描写原则的逻辑层次排列,这是一个较为普遍有效的逻辑架构。

1.1 核心

这是最焦点、最核心的部分,也是最抽象、最难以理解的部分。

我的建议是:

  • 如果你的牛子或者幻肢非常坚挺,对自己的性癖非常了解,同时你有相当程度的抽象概括能力,建议自己写核心

  • 如果你的牛子或者幻肢非常坚挺,对自己的性癖非常了解,但是没有足够的抽象概括能力,建议和A.U.T.O多对话几轮,喜欢特定角色的和ModeB聊,喜欢特定世界的和ModeO聊,其他性癖的和ModeA聊,多半你自己会有思路

  • 如果以上条件都不满足,直接让A.U.T.O帮你写,我试过在限定场景和剧情的情况下他对核心的总结有我八成能力

1.2 次级核心

一言以蔽之,两面性:

  • 要么是强调和具体化核心中最强、最有效的刺激点

  • 要么是补足核心和具体设定之中关键的逻辑薄弱环节

  • 同样,有想法自己写是最好的,实在不行就拜托A.U.T.O吧

1.3 审美/叙事/描写原则

没什么可解释的。同样有想法的最好自己写,不行就拜托A.U.T.O

2 内容设计

先写出核心,然后根据你的判断插在深度3-4,就可以后续写卡流程

实体设定、逻辑规则和描写修饰的三分逻辑仍然是有效的,可以帮助你整理思绪。
但是除此以外真的是千奇百怪,需要自行摸索。

可以参考A.U.T.O的三个Mode,以及每一个Step中的提示词来理解。

3 COT设计

除了逻辑结构之外,最重要的其实是判断"在叙事过程中最重要的是什么”
重视人物,就要判断人物状态,推演人物心理。
重视世界,就要判断世界局势,推演相关影响。

以此类推。
具体可以用ModeB和ModeO制作两张卡,比较一下COT的区别来理解。

4 交互界面设计

相信你的牛子和幻肢,多测试多改。

其实以上的一切都是这样。

Tips:深度和蓝绿灯有非常大的影响,但这点请参考世界书教程