Anthropic LLM 论文精读

背景

聊天：三个月前chatgpt出现了，业界震动，Yann LeCun狂喷说没创新性，但是它就是把东西拼在一起，虽然还拼得不错，然后和OpenAI对喷，说Google和Meta早就有了，只是没公开罢了

"In terms of underlying techniques, ChatGPT is not particularly innovative," said Yann LeCun, Meta's chief AI scientist, in a small gathering of press and executives on Zoom last week.

"It's nothing revolutionary, although that's the way it's perceived in the public," said LeCun. "It's just that, you know, it's well put together, it's nicely done."

但是沐觉得：LeCun是低估了别人做事的难度。从Instruct GPT就能看出Google压力很大，都觉得是微软和OpenAI来挑战Google了（然后Bard翻车了，一次错误让Google跌了一千亿美元）

今天的主角是Anthropic AI的工作，它的早期员工是OpenAI分裂出来的，它们关注AI安全研究，OpenAI更关心它的有效成分，放出来大家用，收集用户的prompt，再提升模型性能（国内的从业人员对这一套应该是很熟悉了），但是有些人就觉得应该先去了解下，它的安全性/伦理问题，于是就跑出来搞了Anthropic AI，刚出来就拿了一亿美元（虽然受到SBF事件的影响，但现在Google投进去几个亿）

https://www.anthropic.com/

论文标题：Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback（使用RLHF训练一个有帮助且无害的助手）

https://arxiv.org/abs/2204.05862

补充，RLHF的来源：https://arxiv.org/abs/1909.08593 文章中有两位作者都在Anthropic

这个模型很可能对应的是HELM中的那个 Anthropic-LM-v4-s3，但是真实情况很可能会迭代的很快

https://github.com/anthropics/hh-rlhf

从时间上来讲，这篇文章比InstructGPT晚了一点，但是实际上它的技术和ChatGPT是很接近的，技术和形态和ChatGPT基本是一样的，导致了11月以后OpenAI吸走了大量流量。

补充：和OpenAI比，他们的模型回答：“我不知道”的概率更高一点

摘要

喜好建模和RLHF用来ft语言模型，而且是有帮助且无害的，我们发现“对齐”能提高几乎所有评估性能，比如python coding，文本摘要都完全适配。当你的模型足够大，做做这个做做那个不会影响之前学到的技能（不够大的模型会灾难性遗忘）

方法上面：做了迭代+在线训练（有点类似InstructGPT：标注一次+训练一次），每个星期训练一个新的奖励函数+RL Policy，加上新的人工标注，这个会有效提升数据集和模型质量。