GenBench: A taxonomy and review of generalization research in NLP
<초록>
The ability to generalize well is one of the primry desiderata for models of natural language processing (NLP), but what's good generalization entails and how it should be evaluated is not well understood. In this Analysis we present a taxonomy for characterizing and understanding generalization research in NLP. The proposed taxonomy is based on an extensive literature review and contains five axes along which generalization studies can differ: tehir main motivation, the type of generalization they aim to solve, the type of data shift tehy consider, the source by which this data shift originated, and the locus of the shift within the NLP modeling pipeline. We use our taxonomy to classify over 700 experiments, and we use the results to present an in-depth analysis that maps out the current state of generalization research in NLP and make recommendations for which areas deserve attention in the future.
NLP 분야에서 일반화(generalize)하는 능력은 모델에게 가장 바람직한 능력이지만 무엇이 좋은 일반화인지, 그리고 이를 어떻게 평가할 수 있는지는 아직까지 잘 밝혀지지 않은 편입니다. 이 연구에서는 NLP 분야에서 이루어진 일반화 연구들을 특징화하고 이해하기 위한 분류법을 제시합니다. 제안하는 택소노미는 그동안의 문헌 조사를 바탕으로 만들어졌으며, 일차별화할 수 있는 5가지 축을 포함합니다: main motivation, type of generalization, type of data shift, source of data shift, locus of the shift modeling pipeline.
우리는 이 택소노미를 통해 약 700여개에 달하는 실험들을 분류하였으며, 결과들을 사용하여 현재 NLP에서의 일반화 연구를 파악하고 그리고 향후 어떤 분야가 주목받을 지에 대한 추천 등을 제안하기 위해 심층 분석 in-depth 을 진행하였습니다.
<GenBench>
https://genbench.org/taxonomy/
The generalisation taxonomy
Characterise and understand generalisation research in NLP
genbench.org
분류체계(taxonomy) 설명
1) Motivation
연구의 가장 상위 레벨 동기
동기에 따라 어떤 종류의 일반화가 연구에 필요한지 결정 가능하며, 실험 설계도 가능
때문에 연구에서 하는 실험은 연구 동기(question-answer)와 일치(align)하게 됨
4가지의 동기 제시: practical, cognitive, instrinsic, fairness & inclusitivity
2) Generalization type
연구가 다루고자 하는 일반화 종류
일반화 실험을 통해 무엇을 포착하고자 하는지를 다룸.
6개의 종류: compositional/ sturctural/ corss-task/ cross-lingual/ cross-domain/ robustness generalization
3) Shift type
일반화 실험 시 어떤 종류의 data shift를 고려하는지를 따짐
이는 data shift가 통계적 관점에서 일반화에 대한 정의 혹은 이해에 핵심적인 형식적 역할을 하기 때문
즉 다양한 실험이 있다면 다양한 종류의 data shift 역시 필요
3가지 종류 존재: covariate/ label/ full shift
4) Shift source
실험에서 사용된 data shift의 원천과 관련
data shift의 원천은 훈련/테스트 데이터를 실험자가 얼마나 컨트롤할 수 있는지를 결정
또한 실험을 통해 어떤 결론을 도출할 수 있는지에도 관여
4가지의 원천 존재: naturally occuring shifts/ artificially partitioned natural corpora/ generated shifts/ fully generated data
5) Shift locus
data shift에 대한 locus
shift를 발생시키는 모델링 파이프라인 내의 데이터 distribution을 설명
어떤 종류의 모델링 파이프라인을 사용해야하는지, 어떤 종류의 일반화가 다루어질 수 있는지를 결정
모든 단계에 존재:pre-training, training, testing