↓ 跳过正文

ThinkLess：一种无需训练的推理高效方法，用于减少推理冗余

ThinkLess：一种无需训练的推理高效方法，用于减少推理冗余

2025 Sep 2·941 字·2 分钟

算法论文论文算法 CoT压缩

作者

Abanana

目录

目录

ThinkLess：一种无需训练的推理高效方法，用于减少推理冗余
#

ThinkLess: A Training-Free Inference-Efficient Method for Reducing Reasoning Redundancy

摘要
#

虽然链式思维（CoT）提示提升了大型语言模型（LLMs）的推理能力，但过长的推理 token 序列会增加延迟和 KV 缓存内存使用量，甚至在上下文限制下截断最终答案。我们提出了 ThinkLess，一种推理高效的框架，能够在不修改模型的情况下提前终止推理生成并保持输出质量。注意力分析表明，答案 token 对早期推理步骤的关注最少，而主要集中在推理终止符 token 上，这是由于因果掩码下的信息迁移所致。基于这一发现，ThinkLess 在更早的位置插入终止符 token，以跳过冗余推理同时保留底层知识传递。为防止早期终止导致的格式破坏，ThinkLess 引入了一种轻量级的后调节机制，利用模型天然的指令跟随能力生成结构良好的答案。无需微调或辅助数据，ThinkLess 在大幅减少解码时间和内存消耗的同时，实现了与完整长度 CoT 解码相当的准确率。

Motivation
#

资源消耗
过长 CoT 效果可能反而不好
长 CoT 可能挤占最后生成答案的 token 数量

方法
#

观察到现象
#

注意力下沉，在早期层模型会关注整个推理过程，但是到了后面的层模型更多关注，因为包含整个推理的信息

基于上述现象，提出假设，在推理过程中，之前，存在一个 token，已经具备了足够的信息，在此 token 以后添加能在有足够的信息后终止思考。

验证假说
#

在 DeepSeek-R1-Distill-Qwen-7B 推理中每 16 个 token 的地方插入提前终止思考一次，并提取出的隐藏状态

然后应该是移除让模型继续生成了，重复上述操作，每 16 个 token 提取一次

然后计算各个隐藏状态的余弦相似性

发现这些相似性相似程度很高，可以认为后续就几乎没有新的有用信息加入了。

尝试在不同位置截断并看最终 Acc，发现尽管早期 hidden state 已经具备很多信息了，但是 Acc 还是很低，但是到了越往后越高 ⬇️。

为什么截断位置 0 和 10 的时候很比较高呢？

作者分析提到，在早期截断时，模型其实答对了，但是模型最后没能格式化，比如在 GPQA 上选择题，直接输出了选项内容但是没输出选项 ABCD，导致自动评分错误，对于这个问题，作者选择在写一段简洁的 prompt 拼在题目之前以限制模型的输出

实验
#

数据集：GSM8K、MMLU、GPQA、BBH

模型：Qwen2.5-7B/14B、LLaMA3.1-8B

Baseline：上述模型蒸馏 Deepseek-R1 的变体，例如 deepseek-r1-distill-qwen-7b

效果真的挺好的，基本上都是 ThinkLess 胜

相关文章

Thinkless: LLM Learns When to Think

Thinkless: LLM Learns When to Think

2025 Sep 2·1167 字·3 分钟

算法论文论文算法 CoT压缩

Thinkless: LLM Learns When to Think # Thinkless: LLM Learns When to Think

🧠思维操控：外部CoT辅助大模型推理

🧠思维操控：外部CoT辅助大模型推理

2025 Sep 2·1480 字·3 分钟

算法论文论文算法 CoT压缩

🧠 思维操控：外部 CoT 辅助大模型推理 # Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

CODI: 通过自蒸馏将CoT压缩到连续空间中

CODI: 通过自蒸馏将CoT压缩到连续空间中

2025 Sep 2·1122 字·3 分钟

算法论文论文算法 CoT压缩

CODI: 通过自蒸馏将 CoT 压缩到连续空间中 # CODI: Compressing Chain-of-Thought into Continuous Space via Self-Distillation

面向模型推理思考优化的Test time scaling

面向模型推理思考优化的Test time scaling

2025 Sep 2·2784 字·6 分钟

算法论文论文算法 CoT压缩

面向模型推理思考优化的 Test time scaling # Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning

CCoT：通过密集表示实现高效推理

CCoT：通过密集表示实现高效推理

2025 Sep 2·1773 字·4 分钟

算法论文论文算法 CoT压缩

CCoT：通过密集表示实现高效推理 # Compressed Chain of Thought: Efficient Reasoning Through Dense Representations

Token预算意识的llm推理

Token预算意识的llm推理

2025 Sep 2·1535 字·4 分钟

算法论文论文算法 CoT压缩

Token 预算意识的 llm 推理 # Token-Budget-Aware LLM Reasoning

INFTYTHINK：打破大型语言模型长上下文推理长度限制

INFTYTHINK：打破大型语言模型长上下文推理长度限制

2025 Sep 2·3139 字·7 分钟

算法论文论文算法 CoT压缩

INFTYTHINK：打破大型语言模型长上下文推理长度限制 # InftyThink: Breaking the Length Limits of Long-Context Reasoning in Large Language Models

TokenSkip:可控的CoT压缩 in LLMs

TokenSkip:可控的CoT压缩 in LLMs

2025 Sep 2·787 字·2 分钟

算法论文论文算法 CoT压缩

TokenSkip:可控的 CoT 压缩 in LLMs # TokenSkip: Controllable Chain-of-Thought Compression in LLMs

⏰开始作答：弹性推理实现的可扩展的CoT

⏰开始作答：弹性推理实现的可扩展的CoT

2025 Sep 2·1378 字·3 分钟

算法论文论文算法 CoT压缩

⏰ 开始作答：弹性推理实现的可扩展的 CoT # Scalable Chain of Thoughts via Elastic Reasoning