type
status
date
slug
summary
tags
category
icon
password
Last edited time
Sep 25, 2024 03:41 PM
😀
数据瓶颈下,大模型中数据合成技术的应用

📝 主旨内容

数据合成的背景

为了追求能力的“涌现”,模型越做越大,同时也需要更大的数据集和算力
为了追求能力的“涌现”,模型越做越大,同时也需要更大的数据集和算力

大模型“涌现”现象的解释

💡
非线性或不连续的评价指标会产生明显的涌现能力,而线性或连续的评价指标会导致模型性能的平滑、连续、可预测的变化。涌现能力只和评价指标有关,与具体的模型和任务无关 —— NeurIPS 2023最佳论文《Are Emergent Abilities of Large Language Models a Mirage?》
上面:使用非线性指标(例如准确度)衡量模型性能时,InstructGPT/GPT-3系列在较长的目标长度上呈现出锐利且不可预测的性能。
下面:使用线性指标(例如标记编辑距离)衡量模型性能时,该系列展示出平稳、可预测的性能改进。
上面:使用非线性指标(例如准确度)衡量模型性能时,InstructGPT/GPT-3系列在较长的目标长度上呈现出锐利且不可预测的性能。 下面:使用线性指标(例如标记编辑距离)衡量模型性能时,该系列展示出平稳、可预测的性能改进。

数据瓶颈

  1. 数据收集成本高
  1. 公开数据可穷尽
  1. 隐私数据不可见
notion image
notion image
 

数据合成方法

大语言模型训练流程

notion image
 
模型自提升
多样化数据 提升领域小模型 模型蒸馏 师生模型
数据不在大而精
存量数据到增量数据
数据合成指导大模型训练

数据合成-预训练阶段

💡
Phi-1:高质量小数据小模型逆袭大模型(phi-1 专注于编码任务,具体来说是编写 Python 函数和对应的文档字符串。训练数据由网上筛选的教科书质量数据(6B token)和 GPT-3.5 生成的教科书及练习数据(1B token)组成)
notion image
notion image
小规模数据 大收益
模型蒸馏 高质量样本
💡
AlphaGeometry:在几何问题上接近奥林匹克数学金牌水平(生成十亿个随机的几何对象图,并详尽地推导出每个图中点和线之间的所有关系 大胆假设 小心求证 Google Nature)
notion image
notion image
 
notion image
notion image
模型自提升
数学推理
派生定理
衍生 回溯

数据合成-指令微调阶段

💡
Alpaca: 在LLaMA-7B基础上用52K合成数据进行微调
notion image
notion image
notion image
指令-回答
蒸馏
💡
Vicuna: 开源的聊天机器人比肩GPT4 90%的质量(利用真实的70k的chatgpt对话数据进行有监督微调)
notion image
真实用户对话数据
 
指令微调
💡
WizardLM: 深度和广度,我全都要(使用prompt对种子指令样本进行多样化,复杂化改写可以有效提升模型效果)
notion image
提升质量
深搜和广搜
instruct
💡
 Instruction Backtranslation: 自动生成这些指令,并将其与相应的文本内容配对,形成新的训练数据(ICLR2024)
  1. 自我提升:本阶段的目标在于为网络文本中的每一段生成一个指令。为此,此研究首先使用少量种子数据微调基础语言模型,然后利用微调后的模型为未标记文本生成指令。这一过程确保了生成的指令与原始文本内容紧密相关。
  1. 自我策划:由于自我提升步骤可能会生成低质量的指令,因此需要进一步筛选这些数据。在此步骤中,此研究使用语言模型自身评估每个生成的指令的质量,并仅保留高质量数据。这一过程确保了训练数据的准确性和相关性。
notion image
由答案反推指令
不知道怎么问
但是答案是很容易评价的
回忆机制 自我衰减
 

数据合成-对齐阶段

偏好对齐
💡
Starling: GPT4整合评价多个模型的输出
notion image
多个大模型得到回复
再根据gpt4进行排序
💡
Self-Rewarding: 超越人类的AI代理,自我奖励语言模型的探索
notion image
奖励模型

数据合成的未来

单模态到多模态

💡
利用目标检测和图像分割等技术生成对话数据
notion image
图形内的对象以文本的形式提出来
目标检测 哪些目标 位置 数量
仅含文本增强
 
图片插值

定制化到自动化

💡
将数据合成技术尽可能泛化
notion image
推理 逻辑 记忆
定制化 自动化
假设xx助手 角色扮演
数据合成技术尽可能泛化
输出前想清楚?
思路 被动思考 到 主动思考
穷尽方案取最优
模型具有推理功能 整合到模型本身 而不是从数据中学习 强化学习
不需要提示工程?简单思路即可
数据合成集成到模型本身
 
 
生成数据解决数据缺少
领域大模型
 
不同模型产生数据 进行互补
交叉服务
闭合回路
蒸馏出来的数据 提升小模型
小模型的领域内知识 提升大模型
 
 
 

🤗 总结归纳

 

📎 参考文章

 
(B榜)第四届计图人工智能挑战赛——少样本视觉分类问题Linux自动挂载数据盘
Loading...