Exploring the Cognitive Knowledge Structure of LLM
Zhang, Z., Yu, J., Li, J., & Hou, L. (2023). Exploring the Cognitive Knowledge Structure of Large Language Models: An Educational Diagnostic Assessment Approach. arXiv preprint arXiv:2310.08172.
내가 관심갖는 분야와 정말 가까이 붙어있음
연구 동기
최근 LLM들의 성능이 높아졌으며, 많은 곳에서 human-centric한 벤치마크를 많이 사용
다만 이러한 benchmark들은 LLM의 knowledge, cognitive patterns를 고려하지 않은 한계가 있음
이에 해당 연구에서는 model들의 knowledge, cognitive distribution을 고려하여 연구를 진행
연구 데이터
Educational Diagnostic Assessment approach 사용
- MoocRadar 데이터셋 활용: Bloom's taxonomy에 따라 주석
- 인간이 대답한 MOOCCubeX에서 MoocRadar 데이터셋 추출, 이들의 평균을 정답으로 활용
실험 내용
1) Performance analysis: 다양한 도메인과 문형들에 대한 LLM의 proficiency, robustness 확인
- 도메인: STEM, social science, humanity, others; 기계가 STEM은 정말 잘하는데 문과적인 것을 못함 ^^;;
- 문형: TF(True/False), MC(Multiple Choices), SC(Single Choice); 다지선다는 모델이 여러 단계 추론을 거쳐야 하기에 정답률 낮음
- robustness: 기계도 초두효과에 영향(Primacy Effect; 답을 초반/후반에 놓았을 때 영향도 측정)
2) Deficit Assessment: 인간과 knowledge sturcture 등이 유사한지를 측정; Pearson corr.를 사용한 자체 메트릭 활용
- 기계의 버전이 최신일수록 사람의 인지적 경향과 비슷해짐
- GPT4: 0.474
3) Error Assessment: 기계가 리턴한 답과 설명(reason) 비교를 통해 에러 패턴 확인
- 답을 맞춰도 이유를 보면 틀린 경우가 많음; TF처럼 문제가 단순할수록, GPT-4처럼 모델이 최신일수록 이러한 경향이 낮아짐
- 문맥은 오히려 explanation의 품질을 저하하는 경향이 있었음