-
초록) Human Still Wins over LLM: An Empirical Study of Active Learning on Domain-Specific Annotation TasksGenerative AI/benchmarks 2023. 11. 20. 01:48
<Abstract>
Large Language Models (LLMs) have demonstrated considerable advances, and several claims have been made about their exceeding human performance. However, in real-world tasks, domain knowledge is often required. Low-resource learning methods like Active Learning (AL) have been proposed to tackle the cost of domain expert annotation, raising this question: Can LLMs surpass compact models trained with expert annotations in domain-specific tasks? In this work, we conduct an empirical experiment on four datasets from threee different domains comparing SOTA LLMs with small models trained on expert annotations with AL. We found that small models can outperform GPT-3.5 with a few hundreds of labled data, and they achieve higher or similar performance with GPT-4 despite that they are hundres thime smaller. Based on these findings, we posit that LLM predictions can be used as a warmup method in real-world applications and human experts remain indispensable in tasks involving data annotation driven by domain specific knowledge.
초거대 언어 모델 (LLM)은 놀랄 만한 성능을 보여주고 있으며, 혹자들은 이들의 능력이 인간의 성능을 뛰어넘었다고 말한다. 그러나 현실과 밀접한 태스크들의 경우 도메인 지식이 자주 요구된다. 도메인 전문가 주석 비용을 해결하기 위해 AL(Active Learning)과 같은 저자원 학습 방법이 제안 됨에 따라, 다음과 같은 문제가 제기되었다: LLM들이 도메인에 특화된 태스크에서 전문가 주석으로 학습된 모델들을 능가할 수 있는가?
이 연구에서는 GPT-3.5와 더불어 AL과 전문가 주석으로 학습된 작은 모델들을 3개의 다른 도메인을 다 4개의 데이터셋을 통해 실험할 예정이다. 실험을 통해 작은 모델들이 수 백개의 라벨링된 데이터들을 이용하여 GPT-3.5를 능가할 수 있음을 발견하였으며, GPT-4보다 수백배 더 작은 규모임에도 불구하고 이와는 비슷하거나 더 높은 성능을 보이기도 하였다. 이런 현상을 통해 우리는 LLM의 예측이 실제 생활 속 application을 위한 warmup method로 쓰일 수 있음을 알 수 있었으며, 사람 전문가는 특정 도메인 지식이 필요한 데이터 주석이 수반되는 태스크에서 꼭 필요한 존재임을 확인하였다.
'Generative AI > benchmarks' 카테고리의 다른 글