LLM在连续Latent空间中推理

LLM 在连续 Latent 空间中推理
#

Training Large Language Models to Reason in a Continuous Latent Space

摘要
#

大型语言模型（LLMs）受限于“语言空间”，通常通过思维链（CoT）来表达推理过程以解决复杂的推理问题。然而，我们认为语言空间并不总是最优的推理选择。例如，大多数 token 主要用于文本连贯性而非推理，而一些关键词元需要复杂的规划并对 LLMs 构成巨大挑战。为了探索 LLMs 在不受限潜在空间中的推理潜力，而不是局限于自然语言，我们引入了一种新的范式——椰子（Chain of Continuous Thought，Coconut）。**我们利用 LLM 的最后一个作为推理状态的表示（称为“连续思维”）。我们将其直接作为下一个 token 输入 llm。**实验表明，椰子能够在多个推理任务中有效增强 LLM 的表现。这种新颖的潜在推理范式导致了高级推理模式的涌现：连续思维能够编码多个替代的下一步推理步骤，使模型能够在推理过程中进行广度优先搜索（BFS），而非像思维链那样过早地锁定单一确定路径。在某些需要大量回溯的逻辑推理任务中，椰子的表现优于思维链，并且在推理过程中使用的思考 token 更少。这些发现展示了潜在推理的潜力，并为未来研究提供了宝贵的见解。

动机
#

CoT 中大多数 token 仅仅保持行文流畅，对于实际推理过程没啥作用。但是 LLM 为预测每个 token 分配了几乎相同的算力。理想的情况是能够在没有任何语言约束的情况下自由推理，仅在必要时将其发现转化为语言。

简言之，CoT 大多数 Token 仅仅是为了保持行文流畅的，LLM 没必要在上面浪费算力，可是实际是浪费了

方法
#

核心思路
#

和是两个特殊 token，begin of thought 和 end of thought

训练阶段
#

训练分为多个阶段：

初始阶段（Stage 0）：在常规 CoT 上训练

第 k 阶段（Stage k）：CoT 中前 k 个推理步骤的文本替换成 k * c 个连续思维（thought token），其中 c 是一个超参数，表明每个 step 替换成多少个 token

没看到 step 是怎么划分的，还想或许可以和 lightthinker 结合一下 step 看行文逻辑感觉是数据集里自带的

训练过程中舍弃了 Question 和 thought 的损失

推理阶段
#

将最后一个隐藏状态作为下一个输入的 embedding

关于什么时候结束 thought 作者提出两种方案，一种是在 thought 上训练一个二分类器，另一种是将 thought 填充到固定长度。作者发现两种方式的表现都很不错，为了简化实验后续采用第二种方式

实验
#

主实验
#

模型：GPT-2

任务：数学推理、逻辑推理

数学推理
#

数据集：在 GSM8k 合成的数据（自带 step）

超参数：设置 c=2，也就是每个 step 被抽象为 2 个 thought；在 Stage 3 后面添加一个 Stage 3+1，移除了后续所有的语言推理链，thought 和 Stage 3 完全相同

逻辑推理
#

数据集：ProsQA(Proof with Search Question-Answering) 和 ProntoQA

我们使用 5-hop ProntoQA（Saparov 和 He，2022）问题，并采用虚构的概念名称。对于每个问题，随机生成一个树状结构的本体，并以自然语言描述为一组已知条件。模型被要求根据这些条件判断给定陈述是否正确。这作为更高级推理任务（如自动化定理证明，Chen 等人，2023；DeepMind，2024）的一种简化模拟。

超参数：设置 c=1，也就是每个 step 被抽象为 1 个 thought；一共 6 个 Stage，最后一阶段没有可读的 CoT，都是 thought