ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • GLUE(General Language Understanding Evaluation) 소개
    NLP Evaluation/Benchmarks 2022. 11. 6. 17:27

    1. GLUE

    * paper: https://openreview.net/pdf?id=rJ4km2R5t7

    * site: https://gluebenchmark.com

    * huggingface:  https://huggingface.co/datasets/glue

     

    GLUE Benchmark

    The General Language Understanding Evaluation (GLUE) benchmark is a collection of resources for training, evaluating, and analyzing natural language understanding systems

    gluebenchmark.com

     

    2. GLUE의 세부 task(9)

     1) Single Sentence Task 

        (1) CoLA: The Corpus of Linguistic Acceptability(Warstadt et al., 2018)

           CoLA는 문헌(참고: 주로 문장 vs 비문이 비교된 문법책 같습니다.) 그리고 언어학 이론 관련 논문에서 발췌된 문장(정문/비문)들에 대한 영어 측면에서의 문법적 '용인 가능성(acceptability)'을 측정하는 task 입니다. 즉 문법적 측면에서 문장이 자연스러운지 아닌지를 판단하는 태스크로, 각 문장들은 문법적으로 맞는 문장인지 아닌지(acceptable/unacceptable)로 라벨링 되어있습니다. 
           Warstadt et al.(2018)에서 제시된 것과 같이, GLUE에서는 Matthews correlation coefficient (Matthews, 1975)를 사용해 불균형한 이진 라벨에서의 분류 성능을 -1에서부터 1까지의 범위로 측정합니다. 이때, 0은 분류의 불일치로 간주합니다. 

       (2) SST2: The Stanford Sentiment Treebank (Socher et al., 2013)
        SST-2는 영화 리뷰에 대한 사람들의 감성을 주석한 데이터셋입니다. 해당 task는 주어진 문장이 어떤 감성을 가지는지 예측하는 것으로, 긍정/부정(positive/negative) 2개의 라벨로 라벨링 되어 있습니다. 

     

    2) Similarity and Paraphrase Tasks

       (1) MRPC: The Microsoft Research Paraphrase Corpus (Dolan & Brockett, 2005)

            MRPC는 온라인 뉴스 기사에서 발췌한 문장들에 대해 사람들이 의미적으로 동일한 문장쌍을 주석한 데이터셋입니다. 클래스 불균형 말뭉치(긍정 라벨 68%)이기에 GLUE에서는 accuracy와 F1 score를 동시에 사용합니다. 

       (2) QQP: The Quora Question Pairs2 dataset 

          QQP는 우리나라 지식인과 같은 사이트인 Quora에서 질문들을 발췌하여 모은 데이터셋으로, task는 두 질문이 의미적으로 동일한 지 판단하는 내용으로 구성되어 있습니다. MRPC와 마찬가지로 QQP 역시 클래스 불균형(부정 63%) 데이터셋이기에, accuracy와 F1 score 모두를 사용합니다. GLUE 에서는 질문을 작성한 작성자들에게 얻은 라벨을 붙인 standard test set을 사용하며, 해당 테스트셋은 훈련셋과는 다른 라벨 분포를 보입니다. 

     

       (3) STS-B: The Semantic Textual Similarity Benchmark (Cer et al., 2017)
          STS-B 데이터셋은 뉴스 헤드라인, 비디오/이미지 캡션, 그리고 NLI 데이터에서 얻은 문장쌍들로 구성되어 있습니다. 각 문장쌍에 대해 사람들이 1~5점 사이로 유사도 점수를 매겼으며, task는 이 점수를 예측하는 식으로 진행됩니다. metric으로 Pearson, Spearman correlation coefficient를 사용합니다. 

     

    3) Inference Tasks(metric: accuracy)

       (1) MLNI: The Multi-Genre Natural Language Inference Corpus (Williams et al., 2018) 
           MLNI는 텍스트 간 함의(entailment) 관계를 크라우드 소싱으로 주석한 문장쌍으로 구성된 데이터셋입니다. 전제(premise)문장과 가정(hypothesis) 문장이 주어져 있으며, task는 전제가 가정을 함의(entailment)하는지, 혹은 가정과 모순되는지(contradiction), 아니면 무관한지(neutral)를 판단합니다. 전제 문장들은 전사된 강연, 소설 혹은 정부 보고서 등에서 발췌되었으며, GLUE에서는 문장 작성자들이 라벨을 표시한 standard test set을 사용합니다. 또한 GLUE에서는 in-domain에서의 matched section과 cross-domain에서의 mismatched section을 제공합니다. 보조적인 훈련 데이터(auxiliary)로는 SNLI 데이터셋(Bowman et al., 2015)을 추천합니다. 

    matched section MNLI dataset
    mismatched section MNLI dataset

     

       (2) QNLI: The Stanford Question Answering Dataset (Rajpurkar et al. 2016)

          QNLI는 질문-단락(paragraph) 쌍으로 구성된 질의-응답 데이터셋입니다. 질문은 데이터셋 생성 시  주석자가 만든 것이며, context가 되는 paragraph는(출처는 Wikipedia) 답변이 되는 문장을 포함하고 있습니다. task는 각 질문과 context sentence 내 답변을 한 쌍으로 묶는 문장쌍 분류(sentence pair classification)로 꾸려지며, 이때 질문과 context 간에 어휘 중복도(lexical overlap)가 낮은 경우는 필터링 됩니다. task는 context sentence가 질문의 정답이 되는 문장을 포함하고 있는지를 중점으로 이루어집니다.

          이 task를 변형한 task로는 모델이 정확한 답변을 선택할 필요가 없으며, 동시에 또 context 내 답변이 있어야 한다는 가정과 어휘 오버랩에 대한 가정을 없앤 없앤 task가 있습니다. 
    위와 같이 기존에 존재하는 데이터셋을 NLI로 치환하는 과정은 White et al.(2017)에서 제시된 것과 비슷하며, 또 Demszky et al.(2018)에서는 더욱 발전되어 제시되었습니다. 이렇게 NLI로 치환된 데이터셋을 GLUE 에서는 QNLI(Question-answering NLI)라 부릅니다. 

    (3) RTE: The Recognizing Textual Entailment (RTE) datasets
    RTE는 매년 치러지는 textual entailment challenge에서 유래된 데이터셋입니다. GLUE는 RTE1 (Dagan et al., 2006), RTE2 (Bar Haim etal.,2006),RTE3(Giampiccoloetal.,2007),그리고 RTE5(Bentivoglietal.,2009) 데이터를 합쳐서 RTE 데이터셋으로 사용합니다. 데이터들은 주로 뉴스와 위키피디아 본문에서 발췌되었습니다.

    RTE는 entailment/ not entailment 2개 클래스로 나누어집니다. 원래 RTE 데이터에서는 클래스가 entailment, contradiction, neutral로 3개이나, GLUE에서는 일관성을 위해 contradiction, neutral을 not entailment로 치환하였습니다.

       (4) WNLI: The Winograd Schema Challenge (Levesque et al., 2011)
          Winograd Schema Challenge는 원래 대명사가 있는 문장을 읽은 후, 이 대명사가 무엇을 뜻하는지 고르는 독해(reading comprehension) task 입니다. 각 데이터들은 단순한 통계 방법론은 통하지 않게 수동으로 만들어졌습니다. 즉 각 데이터는 문장 내 존재하는 개별 단어 혹은 구(phrase)가 줄 수 있는 문맥적인 정보에 의존합니다.
          이 task를 문장쌍 분류 task로 전환하기 위해 GLUE에서는 문장 내 존재하는 모호한 대명사들을, 이 대명사가 지시하는 대상으로 바꾸어 문장을 만들었습니다. 이에 따라 지시 대상으로 교체된 문장이 원래 문장과 함의 관계를 맺는지 확인하는 task가 구성됩니다. GLUE는 또한 소설책에서 새로운 데이터들을 찾아 테스트셋(evaluation set)을 만들었습니다. 원래 WNLI 훈련셋(train dataset)은 두 개 라벨이 균형을 이루고 있습니다. 그러나 새로운 테스트셋은 클래스 간 불균형(not entailment 65%)을 이루고 있습니다. 
          데이터셋 특성 상 development 데이터는 성능에 적대적인(adversarial) 특성을 띱니다. 이는 훈련 데이터셋과 dev셋 간 가정(hypothesis)을 공유하고 있기 때문인데, 이에 따라 만일 모델이 훈련 데이터를 기억하고 있다면 dev 데이터에 대해서는 전혀 다른 라벨을 예측하게 됩니다. QNLI와 같이, 각 데이터들은 개별적으로 평가되기에 모델의 성능과 원래 해당 데이터 task 간에는 어떠한 상관관계도 존재하지 않습니다. 즉, Winograd Scheme Challenge 데이터셋을 사용하였지만, tasksms NLI를 다루고 있는, WNLI(Winograd  NLI) 데이터셋을 생성한 것이 됩니다. 

    'NLP Evaluation > Benchmarks' 카테고리의 다른 글

    CoLA) Neural Network Acceptability Judgments  (1) 2023.11.12

    댓글

Designed by Tistory.