초록) Do Localization Methods Actually Localize Memorized Data in LLMs?
<Abstract>
Large language models (LLMs) can memorize many pretrained sequences vebatim. This paper studies if we can locate a small set of neurons in LLms reponsible for meorizing a given sequence. While the concept of localization is often mentioned in prior work, methods for localization have never been systematically and directly evaluated; we address this with two benchmarking approaches. In our INJ Benchmark, we actively inject a piece of new information into a small subset of LLM weights and measure whether localizatiton methods can identify these :ground truth" weights. In the DEL Benchmark, we strudy localization of pretrained data that LLMs have already meorized; while this setting lacks ground truth, we can still evaluate localization by measuring whether droping out located neurons erases a memorized sequence from the model. We evaluate five localization methods on our two benchmarks, and both show similar rankings. All methods exhibit promising localization ability, especially for pruning-based methods, though the neurons they identify are not necessarilly specific to a single memorized sequence.
초거대 언어 모델은 수많은 사전학습 과정들을 외울 수 있습니다. 이 연구는 LLM 내 주어진 과정을 외우기 위한 작은 집합의 뉴런들을 둘 수 있는지 아닌지에 대해 다룹니다. 이러한 개념의 location은 자주 선행 연구들에서 언급되어 왔으나, localization에 대한 방법들은 체계적으로(systematically), 그리고 직접적으로 평가되지도 않았습니다. 우리는 이를 두 개의 벤치마크로 해결하고자 합니다. INJ 벤치마크의 경우, LLM의 소규모 가중치 집합(set)에 새로운 정보를 주입하여 location 방법들이 "정답(ground truth)" 가중치들을 식별할 수 있는지 아닌지를 측정합니다. DEL 벤치마크에서는 LLM이 이미 외우고 있는 사전학습 데이터셋에 대한 localization을 살펴봅니다. 이러한 세팅에서는 ground truth가 부족하더라도, located된 뉴런을 제거했을 때 암기된 모델의 과정이 지워지는지 아닌지를 측정함으로써 location을 살펴볼 수 있습니다. 이 연구에서는 2개의 벤치마크를 통해 5개의 localization 방법들을 평가합니다. 또한 두 벤치마크는 모두 비슷한 순위를 리턴했습니다. 모든 방법들이 promising한 localization 능력들을 보였지만, 특히 pruning-based 방법은 식별된 뉴런이 반드시 기억된 단일 과정에 국한되지 않았습니다.