-
초록) Toward Human-Like Evaluation for Natural Language Generation withError Analysis (2023)논문 리뷰/초록 찍먹 2023. 7. 21. 15:37
The pretrained language model (PLM) based metrics have been successfully used in evaluatign language generation tasks. Recent studies of the human evaluation community show that considering both major errors (e.g. mistranslated tokens) and minor errors (e.g. imperfections in fluency) can produce high-quality judgments. This inspires us to approach the final goal of the automatic metrics (human-like evaluations) by fine-grained error analysis. In this paper, we argue that the ability to estimate sentence confidence is the tip of the iceberg for PLM-based metrics. And it can be used to refine the generated sentence toward higher confidence and more refrence-grounded, where the costs of refining and approaching reference are used to determine the major and minor errors, respectively. To this end, we take BARTScore as the testbed and present an innovtive solution to marry the unexploited sentnece refining capacity of BARTScore and human-like error analysis, where the final score consists of both the evaluations of major and minor errors. Experiments show that our solution consistently improves BARTScore, outperforming top-scoring metrics in 19/25 test settings. Analyses demonstrate our method robustly and efficiently approaches human-like evaluations, enjoying better interpretability. Our code and scripts will be publicly released in https://github.com/Coldmist-Lu/ErrorAnalysis_NLGEvaluation
GitHub - Coldmist-Lu/ErrorAnalysis_NLGEvaluation: 🎁[ErrorAnalysis_BARTScore] (ACL2023) Toward Human-Like Evaluation for Natur
🎁[ErrorAnalysis_BARTScore] (ACL2023) Toward Human-Like Evaluation for Natural Language Generation with Error Analysis - GitHub - Coldmist-Lu/ErrorAnalysis_NLGEvaluation: 🎁[ErrorAnalysis_BARTScore] ...
github.com
사전학습 모델 기반 (PLM) 평가 지표들은 자연어 생성 태스크에서 성공적으로 역할을 수행해왔다. 최근 인간 평가 커뮤니티의 연구에 따르면 주요 에러(ex. 잘못 번역된 토큰) 나 사소한 에러(ex. 유창성 부족) 모두에서 높은 품질의 평가(judgement) 를 얻을 수 있다. 이러한 사실은 세밀한 에러 분석을 통해 자동 평가 (인간과 비슷한 수준의 평가)의 최종 목표에 도달하겠다는 동기를 부여하였다.
본 연구에서는 문장의 confidence를 추정하는 능력이 PLM 기반 평가 지표의 빙산의 일각이라는 것을 발견하였다. 또한 이러한 사실은 생성된 문장을 더욱 정교하게 만들어 더 높은 confidence와 레퍼런스에 더 가깝게 만들 수 있게 하는 한편, 정교화와 레퍼런스에 가깝게 다가갈 때 드는 비용에 따라 주요 에러인지 사소한 에러인지를 판단할 수 있다.
결론적으로 본 연구에서는 BARTScore를 사용했으며 이를 바탕으로 BARTScore의 아직 알려지지 않은 정교화 능력과 더불어 에러 분석을 가능하게 하는 새로운 솔루션을 제안하였다.
실험 결과 제안하는 솔루션은 BARTScore를 개선하였으며, 테스트 상황 속에서 가장 높은 성능을 보였다. 분석 결과는 우리의 방법이 더 강건하게 그리고 더 효율적으로 인간과 비슷한 평가를 가능하게 하며 더 나은 해석 가능성을 제공한다.
'논문 리뷰 > 초록 찍먹' 카테고리의 다른 글