丰色 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
GPT-3究竟是如何进化到GPT-4的?
字节给OpenAI所有大模型来了个“开盒”操作。
结果还真摸清了GPT-4进化路上一些关键技术的具体作用和影响。
更直观的表现如下图所示(“粉圈”为进化后的text-davinci-001)。
接着,GPT开始进入3.5系列,在该系列早期阶段,先是最基础的code-davinci002采用同样的技术进化成text-davinci-002。
然而这一进化操作的效果属实不大,GPT的各项性能只有少数几个提升,更多是不增反减的。
在此,作者引出他们的第一个结论,即:
SFT只在较弱的基础模型上管用,用在更强的模型上收效甚微。
类似现象在开源模型身上也可见(这个评测还测了Llama1和2、PaLM2-L、Claude 2等模型):
在初代Llama-65B之上,SFT成功提升了它在MMLU基准上的性能,但是,所有使用了SFT改进的Llama2-70B在Open LLM Leaderboard榜单上却只表现出微小的进步。
总结:在GPT3阶段,SFT技术对模型的进化起到了关键作用。
2、RLHF和SFT:编码能力提升的功臣顺着GPT3.5系列接着看,从text-davinci-002开始,OpenAI开始引入新技术基于PPO算法的RLHF,得到text-davinci-003。
此时,它在大部分基准上的表现和前代模型持平或略变差,说明作用不是特别明显(在开源模型身上也是如此)。
但有一个除外:编码任务,最高足足增加了近30分。
此外诸如CoT、样本数量以及采样方差等因素也都被包括进了敏感性测试当中。
未来,作者计划从能力种类、测试数据集和模型三个维度继续扩展GPT-Fathom,将支持多轮对话、多模态等能力的测评,以及增加对多个数据集和模型的测试。
GPT-Fatham的两位共同一作分别是字节公司应用机器学习研究组的研究人员张驭宇(Yuyu Zhang)和实习生Shen Zheng。
Shen Zheng是伊利诺伊大学香槟分校(UIUC)的一名硕士生。
此外,字节公司的Yijie Zhu等四名研究人员,以及UIUC的Kevin Chen-Chuan Chang教授也参与了这项研究。
论文地址:https://arxiv.org/abs/2309.16583参考链接:https://github.com/GPT-Fathom/GPT-Fathom
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关文章
猜你喜欢