초록) Training language models to follow instructions with human feedback
* InstructGPT 이야기
<원문>
Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to ther user. In other words, there models are not aligned with theri users. In this paper, we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tun GPT-3 using supervised learning. We then collect a dataset of rankings of model outputs, which we use to further fine-tune this supervised model using reinforcement learning from human feedback. We call the resulting models InstructGPT. In human evaluations on our prompt distribution, outputs from the 1.3B parameter InstrctGPT model are preferred to outputs from the 175B GPT-3, despite having 100x fewer parameters. Moreover, Instruct GPT models show improvements in truthfulness and reductions in toxic output generation while having minimal performance regressions on public NLP datasets. Even though InstructGPT still makes simple mistakes, our results show that fine-tuning with human feedback is a promising direction for alighning language models with human intent. |
원천적으로 언어 모델을 크게 만든다고 해서 사용자의 의도에 잘 따르는 모델을 만들 수 있는 것은 아니다. 예로, 거대 언어 모델들은 진실되지 않거나, 독성이 있거나 혹은 사용자에게 도움이 되지 않는 출력들을 만들 수 있다. 다른 말로, 이 모델들은 사용자들과 '잘 맞추어지지 않은' 모델이다. 이 연구는 넓은 범위의 태스크에 대한 사용자의 의도에 잘 조정된 언어 모델을 다룬 것으로, 해당 모델은 사람의 피드백을 사용해 파인 튜닝을 진행하였다. OpenAi API를 통해 레이블러들이 작성한 프롬프트를 시작으로, 우리는 모델이 수행하기 원하는 모습에 대해 레이블러들이 시범을 보인 데이터셋을 수집하였고, 해당 데이터셋을 가지고 GPT-3를 지도학습을 사용하여 파인튜닝하였다. 이후 모델 아웃풋에 대한 랭킹을 매긴 데이터셋을 수집하였는데, 이 데이터셋은 나중에 지도학습으로 학습된 모델에 대해 RLHF(reinforcement learning from human feed)를 사용하여 파인 튜닝을 하는데 사용된다. 이러한 과정을 거쳐 학습된 모델을 'InstructGPT'라 명명하였다. 우리의 프롬프트 distribution에 대한 인간 평가에서, GPT-3보다 100배나 적은 1.3B개의 파라미터를 가진 IsntructGPT의 아웃풋들이 175B개의 파라미터를 가진 GPT-3의 아웃풋보다 더 선호되었다. 더 나아가 InstructGPT 모델은 공개된 NLP 데이터셋에 대해 최소한의 regression을 수행했음에도 불구하고 생성한 아웃풋의 진실성(truthfulness)과 toxicity를 크게 개선했다는 점에서 의의가 있다. 비록 InstructGPT가 아직도 아웃풋에서 실수를 만들어 내기는 하지만 우리 연구의 결과는 사람의 피드백을 가지고 파인튜닝을 하는 것이 사용자의 의도에 잘 조정된 언어 모델을 위한 효과적인 방법임을 보여준다.