초록) CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models
<Abstract>
We are currently in an era of fierce competition among various large language models (LLMs) continuously pushing the boundaries of benchmark performance. However, genuinely assessing the capabilities of these LLMs has become a challenging and critical issue due to potential data contamination, and it wastes dozens of time and effor for researchers and engineers to download and try those contaminated models. To save our precious time, we propose a novel and useful method, Clean-Eval, which mitigates the issue of data contamination and evaluates the LLMs in a cleaner manner. Clean-Eval employs and LLM to paraphrase and backtranslate the conatminated data into a candidate set, generating expressions with the same meaning but in different surface forms. A semantic detector is then used to filter the generated low quality samples to narrow down this candiate set. The best candidate is finally selected from this set based on the BLEURT score. According to human assessment, this best candidate is sementically similar to the original contaminattion data but expressed differently. All cnadidates can form a new benchmark to evlaute the model. Our experiments illustrate that Clean-Eval substantially restores the actual evaluation results on contaminated LLMs under both few shot learning and fine-tuning senarios.
최근 다양한 LLM들이 벤치마크 기록들을 끊임없이 경신하면서 치열하게 경쟁하는 양상을 보이고 잇다. 그러나 데이터 오염 가능성으로 인해 이러한 LLM들의 능력을 '정말로' 평가하는 것은 매우 어렵고 중요한 문제가 되었다. 또한 연구자와 엔지니어들은 오염된 모델을 다운로드하고 사용하는 데 매우 많은 시간과 노력들을 낭비하고 있다. 이에 따라 본 연구에서는 데이터 오염을 완화하고 LLM을 보다 명확한 방법으로 평가할 수 있는 "Clean-Eval"이라는 새로운 방법을 제안한다. Clean-Eval은 오염된 데이터를 패러프레이징하거나 역번역하여 같은 의미를 가지나 표면형은 전혀 다른 후보 세트로 만든다. 이후 'semantic detector'가 만들어진 후보들 중 낮은 품질을 가진 샘플들은 후보 세트에서 필터링한다. 가장 최선의 후보는 BLEURT 점수를 기반으로 최종적으로 선정된다. 인간 평가에 따르면 이런 최선의 후보는 원래 오염된 데이터와 같으나 전혀 다르게 표현되었다. 모든 후보들은 모델을 평가하기 위한 새로운 벤치마크를 형성할 수 있다. 본 연구의 실험을 통해 퓨삿과 파인 튜닝 시나리오 아래에서 Clean-Eval이 대체로 오염된 LLM의 실제 평가 결과를 복원하는 것을 확인하였다.