当前位置：首页 >新闻动态 >新媒体服务

通过 ToT 提示进行 LLMs 模块化推理

2023-11-27

本篇是商业化战略产品司理必读系列的第三篇，为我们详细介绍一下广告的竞价拍卖机制，让我们清楚的了解什么是GFP、GSP和VCG机制。为什么Facebook运用VCG机制，而Google却运用GSP机制。

通过 ToT 提示进行 LLMs 模块化推理

提示词里“深呼吸”（take a deep breath）和 “一步步考虑 “（think step by step）等技巧的推广，如今现已扩展到了运用并行计算和启发式（搜索的一些基本原理）进行推理的高级办法。

思维树（ToT）听起来的确如此。这是一种促进言语模型创建推理途径树的办法，推理途径树或许会也或许不会汇聚到正确答案。论文中对运用 LLMs 解决问题的其他办法进行了比较：

根底模型在大规模数据集上练习，能够履行广泛的任务。开发人员运用根底模型作为强壮的生成式AI运用的根底，例如ChatGPT。

挑选根底模型时的一个关键考虑要素是开源与非开源，下面概述了两种模型各自的优点和缺点：

ToT 的立异之处在于将推理步骤分块，并促进模型创建新的推理步骤。这应该是第一种用于进步推理功能的 “递归 “提示技术，与人工智能安全所重视的递归自我改善模型十分挨近。

关于推理树，能够采用不同的办法对每个顶点（节点）进行评分，或对最终途径进行采样。它能够根据诸如到最共同答案的最短途径，也能够根据需求外部反馈的复杂途径，这又把我们引向了 RLHF 的方向。

ToT 论文地址：https://arxiv.org/abs/2305.10601

四、细粒度奖励：进程奖励模型 PRM

迄今为止，大多数 RLHF 的办法都是让言语模型的整个呼应得到一个相关的分数。关于任何具有 RL 布景的人来说，这都是令人绝望的，因为它限制了 RL 办法将文本的每个子部分的价值联系起来的才能。

有人指出，未来因为需求有人类或一些提示源在循环中，这种多步骤优化将在多个对话回合的层面上进行，但这比较勉强。这能够很容易地扩展到自我对弈式的对话中，但很难赋予 LLMs 目标，使其转化为持续改善的自我对弈动态。我们想让 LLMs 做的大多数事情都是重复性任务，而不会像围棋那样对功能设置近乎无限的上限。

另一方面，有一种 LLM 用例能够很自然地抽象为文本块：逐渐推理，数学问题就是最好的比如。

进程奖励模型（PRMs）是 Nathan 在曩昔 6 个月里从 RLHF 朋友那里听到的一个非揭露话题。关于这些模型的文献很多，但关于如何在 RL 中运用这些模型的文献却很少。PRM 的核心理念是为每个推理步骤而不是完好的信息分配分数。下面是 OpenAI 论文《让我们一步步验证》（ Let’s Verify Step by Step）中的一个比如：

图 2 为同一个问题的两种解决方案，左面答案是正确的，右边的答案过错。绿色布景表明 PRM 得分高，赤色布景表明 PRM 得分低。PRM 能够正确识别过错解决方案中的过错。关于过错的解决方案，两种办法都揭示出至少存在一个过错，但进程监督还揭示了该过错的切当方位。

上一篇：ToT 的提示为人们供给了多样性，能够通过拜访 PRM 来学习运用这种多样性

下一篇：供给差异化的服务或使命途径来对应不同的用户集体