cot-decoding，谷歌把o1的底裤都开源了

发布时间：2024-09-26 19:22 浏览量：108

论文笔记分享，标题：Chain-of-Thought Reasoning without Prompting。来自google deepmind。最近这2篇矛头有点直戳OAI了~

RL驱动的Reflection炼丹，谷歌开源SCoRe

cot-decoding: LLMs能否在没有cot prompt的情况下有效推理？我们的研究结果表明，只需改变大模型解码过程，就可以从预先训练的LLMs中导出 CoT 推理路径。

在第一步解码时考虑多个候选token可以增加后续解码路径的多样性。这有助于模型探索可能的推理路径，而不是仅仅依赖于最可能的路径。

对于所有的Top-k解码路径，cot-decoding会计算每个路径的置信度评分，并选择置信度最高的路径作为最终答案。还可以利用置信度分数对答案进行加权，确定答案token置信度综合最多的概率。

如何确定答案token? 很多方式，如果知道答案候选，如ABCD，直接抠就行，也可以扩展模型输出，如添加:所以答案是xxx。还可以根据模型的预测概率，来筛选一致性的token。

评测下来，不仅优于过去的一些策略，而且随着模型尺寸的scaling，仍然有效。最后还可以结合已有的prompt技巧，混合使用效果更佳！

标签：底裤谷歌开源