type
status
date
slug
summary
tags
category
icon
password
Last edited time
May 28, 2024 09:55 PM
集成学习在大模型优化的应用
📝 主旨内容
结果
流程
为什么简单的叠加就可以取得好的效果
在之前的许多评测方法中,通常是对模型进行一次询问,然后直接使用其输出的结果。虽然在一些情况下可能会进行多次询问并取平均值,但这与本文中讨论的“采样-投票”方法有所不同。 “采样-投票”方法的核心思想是,通过对同一任务进行多次询问,得到多个不同的输出,然后通过投票机制选出最一致的答案。具体来说,这种方法有助于减少单次推断过程中的随机性和噪声,因为每次回答的细微差异可能会被多个样本中的共识所中和掉。 简而言之,单次推断结果可能受到模型在特定输入下表现出的随机性影响,而多次采样结合多数投票能够找到一个更稳定、更可靠的最终回答。这种方法类似于集成学习中的bagging,通过多个模型的多数投票来提高整体的预测准确性。 这种策略在一些复杂任务中尤其有效,比如算术推理、代码生成等,因为这些任务往往对准确性要求高,对某些细节的错误相对敏感。通过增加询问次数,可以有效地提高模型的整体表现,减少错误率。
大模型的推理为什么会对同样的输入得到不同的输出
温度参数:在生成式语言模型中,温度参数(temperature)控制了输出分布的“平滑度”。较高的温度会使得输出更随机,而较低的温度会使得输出更确定。如果温度不为零,那么每次生成时模型可能会选择不同的词,从而导致不同的输出。
温度参数在生成式语言模型(如GPT)中起着控制输出文本多样性的关键作用。温度参数主要对生成过程中的概率分布进行调整,从而影响模型的输出。其基本原理是通过调整概率分布的陡峭程度来控制生成的随机性。
具体来说,温度参数 T 会应用在 softmax 函数中,以修正生成下一个词的分布。给定某个单词的原始概率,调整后的概率 是通过以下公式计算得到的:
这里, T 是温度参数:
- 当 T = 1 时,概率分布保持不变。
- 当 T < 1 时,概率分布会变得更尖锐,高概率的词变得更有可能被选中,生成的文本更确定。
- 当 T > 1 时,概率分布会变得更平坦,增加了低概率词被选中的机会,生成的文本更具多样性和随机性。
举个例子来说明温度的影响
假设我们有一个简单的词汇表,模型在某个生成步骤中计算得到的概率分布如下:
- “猫”(cat):0.6
- “狗”(dog):0.3
- “鸟”(bird):0.1
- 温度 T = 1 :即概率分布不变:
- “猫”:0.6
- “狗”:0.3
- “鸟”:0.1
在这种情况下,“猫”被选中的概率最高,生成结果可能较为单一。
- 温度 T = 0.5:使分布更尖锐:
- 将原始概率进行缩放并重新规范化,会得到类似于如下分布:
- “猫”:0.75
- “狗”:0.20
- “鸟”:0.05
此时,模型更倾向于选择“猫”,生成结果更确定。
- 温度 T = 2 :使分布更平坦:
- 将原始概率进行缩放并重新规范化,会得到类似于如下分布:
- “猫”:0.45
- “狗”:0.35
- “鸟”:0.20
在这种情况下,尽管“猫”仍然是概率最高的词,但“狗”和“鸟”被选中的概率增加了,生成结果更具多样性。
通过调整温度参数,可以控制生成文本的随机性和多样性。在实际应用中,不同的任务可能需要不同的温度设置。例如,在生成严谨的技术文档时,较低的温度可能更合适,而在创意写作或对话生成时,较高的温度可以提供更多有趣和多样的输出。
🤗 总结归纳
📎 参考文章
- 作者:ziuch
- 链接:https://ziuch.com/article/More-Agents-Is-All-You-Need
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章