-
초록) Can Large Language Models Be an Alternative to Human Evaluation?(2023)논문 리뷰/초록 찍먹 2023. 7. 21. 13:29
Human evaluation is indispensable and inevitable for assessing the quality of texts generated by machine learning models or written by humans. However, human evaluation is very difficult to reproduce and its quality is notoriously unstable, hindering fair comparisons among different natural language processing(NLP) models and algorithms. Recently, large language models (LLMs) have demonstrated exceptional performance on unseen tasks when only the task instructions are provided. In this paper, we explore if such an ability of the LLMs can be used as an alternative to human evaluation. We present the LLMs with the exact same instructions, samples to be evaluated, and questions used to conduct human evaluation, and then ask the LLMs to generate responses to those questions; we dub this LLM evaluation. we use human evaluation and LLM evaluation to evaluate the texts in two NLP tasks: open ended story generation and adversarial attacks. We show that the result of LLM evaluation is consistent with the results obtained by expert human evaluation; the texts rated higher by human experts are also rated higher by the LLMs. We also find that the results of LLM evaluation are stable over different formatting of the task instructions and the sampling algorithm used to generate the answer. We are the first to show the potential of using LLMs to assess the quality of texts and discuss the limitations and ethical considerations of LLM evaluation.
인간 평가는 기계가 생성한 텍스트나 인간이 쓴 텍스트를 평가할 때 필수적이며 반드시 해야하는 것으로 여겨졌었습니다. 그러나 인간 평가는 재생산성이 낮으며 품질이 매우 불안정하기 때문에 다른 NLP 모델 혹은 알고리즘 간 비교를 어렵게 만듭니다.
최근에 초거대 언어 모델 (LLM)들은 학습하지 않은 태스크에 대해서도 태스크에 대한 인스트럭션(instruction)만 주어지면 이례적으로 우수한 성능을 보였습니다. 본 연구에서는 인간 평가를 대신할 만한 능력이 LLM에게 있는지를 다룹니다. LLM에게 똑같은 인스트럭션, 평가 대상 샘플, 그리고 인간 평가에서 사용된 질문을 보여준 뒤, LLM에게 해당 질문에 대해 대답을 하도록 하였습니다 (LLM evaluation). 그리고 동일한 2개의 태스크(열린 결말 이야기 만들기, adversarial attacks)에 대해 인간 평가와 LLM 평가를 사용하여 결과 평가를 진행하였습니다. 그 결과 LLM 평가가 전문가가 수행한 인간 평가 결과와 일치하는 경향을 보였습니다. 즉 전문가가 높게 평가한 텍스트는 LLM도 높게 평가한 것입니다. 또한 LLM 평가는 서로 다른 태스크 인스트럭션 형태나 정답을 생성하는데 사용한 알고리즘에 대해서도 일관된 결과를 보였습니다. 이 연구에서는 텍스트 품질 평가를 위한 LLM 사용 가능성과 더불어 LLM 평가의 한계나 윤리적 consideration 역시 제시합니다.
'논문 리뷰 > 초록 찍먹' 카테고리의 다른 글