-
CoLA) Neural Network Acceptability JudgmentsNLP Evaluation/Benchmarks 2023. 11. 12. 18:36
<Abstract>
CoLA: Corpus of Linguistic Acceptability
- 10,657개 영어 문장: 여러 언어학 문헌(Ex. 문법책)에서 발췌 & grammatical / ungrammatical로 라벨링
1. Introduction
●“Acceptability judgements”: 사람의 문법적 지식을 관찰하기 위한 생성문법학자들의 가장 기본적이고 행동적인 측정 방법(Chomsky 1957; Schuetze, 1996)
● 신경망에서의 acceptability judgements: 신경망이 **문법적 개념을 익혔는지**를 판단, 이때 문법적 개념은 **인간의 언어적 능력 측면**에서의 개념)
2. Acceptability Judgements
2.1. In Linguistics
● 주로 생성문법(generative linguistics)에서 연구
- 언어 L이 주어졌을 때, L에서 생성된 모든 문장들에 대해 **L이 모어인 화자**가 문법성 판단
- 기존 언어학자들의 문법성 연구도 언어학자 혹은 원어민의 문법성 판단에 대한 직관이 반영
2.2. The Acceptability Classification Task
● 아직 standard는 없음
● boolean / gradient acceptability judgement 측면에서 모두 연구가 이루어졌으나, CoLA에서는 boolean으로 문법성 판단
● 기존 acceptability dataset
- unacceptable sentence들은 대부분 프로그래밍적으로 만들어진. ‘fake sentences’
예) deleting/inserting words, altering verbal inflection….
예) 다른 언어로 번역 후 재번역
- CoLA: 생성한 fake sentences 들로 사전 학습
● linguistic literature 내 example sentence을 사용하는 것의 이점?
- 저자들이 이미 acceptability를 표시함에 따라 주석 과정이 줄어들음
- 예문들은 대부분 논의를 진행시키기 위해 간결하게 제시됨: 이에 따라 비문들은 정문과 매우 비슷하게 제시되며, 보이는 오류들도 낱개로 제시됨
2.3. The Role of Minimal Pairs
● Acceptability 판단: minimal pairs(최소대립쌍) 간 선택으로 태스크 치환 가능
-minimal pairs: acceptability 측면에서 두 문장 간 최소한의 차이
-전산 언어학적 처리에도 사용: 언어 모델을 평가할 때 사용
∵ 최소 대립 문장쌍 간 출력 확률은 매우 차이나기 때문
- 다만 본 논문에서는 향후 과제로 삼음: 여전히 boolean이 대세이기 때문
2.4. Defining (Un)acceptability
● CoLA에 포함되지 않는 문장 유형
i) Pragmatic Anomalies(화용론적 오류): real-world knowledge unrelated to grammar.
ii) Unavailable Meaningsiii) prescriptive Rules: violate explicitly taought rules
iv) Noncfe Words: impossible affixation or lexical gaps.
● 기계가 알아차려야 하는 오류 유형: morphological anomalies, mistake in verbal inflection / syntactic anomalies(ex. wh-movement out of extraction islands), iii) semantic anomalies(ex. violation of animacy requirement of verbal arguments)
3. CoLA: syntactic, semantic phenomena를 다 가짐, 15개 클래스로 라벨링
- simple label(no marked syntactic structures) adjunct label(contain adjuncts of nowns and verb phrases ), comclause labels(sentences with embedded or comple ment clauses), to-VP(non-finite embedded verb phrase), arg altern(non-canonical argument structures), binding labels(pronouns and binding phenomena), qeustion(interrogative clauses and relative clauses), violations label(morphological or semantic violations..)'NLP Evaluation > Benchmarks' 카테고리의 다른 글
GLUE(General Language Understanding Evaluation) 소개 (0) 2022.11.06