기술공부/LLM

논문 리뷰: REALM(Retrieval-Augmented Language Model)

넹넹선생님 2025. 2. 3. 18:31
728x90
반응형

최근 자연어 처리 분야에서 언어 모델의 사전 학습은 놀라운 수준의 세계 지식을 내재화하여 다양한 작업에서 우수한 성능을 보이고 있습니다. 그러나 이러한 지식은 신경망의 파라미터에 암묵적으로 저장되어 있어, 더 많은 지식을 포함하려면 모델의 규모를 계속해서 확장해야 하는 한계가 있습니다. 이를 해결하기 위해, Guu 등(2020)은 언어 모델 사전 학습에 검색 모듈을 통합한 REALM(Retrieval-Augmented Language Model)이라는 새로운 프레임워크를 제안하였습니다.

 

https://arxiv.org/abs/2002.08909

 

REALM: Retrieval-Augmented Language Model Pre-Training

Language model pre-training has been shown to capture a surprising amount of world knowledge, crucial for NLP tasks such as question answering. However, this knowledge is stored implicitly in the parameters of a neural network, requiring ever-larger networ

arxiv.org

 

 

**REALM의 주요 아이디어**

 

REALM은 언어 모델에 잠재적인 지식 검색기를 추가하여, 모델이 대규모 코퍼스(예: 위키피디아)에서 관련 문서를 검색하고 이를 활용하여 예측을 수행하도록 합니다. 이 접근법은 지식을 모델 파라미터에 암묵적으로 저장하는 대신, 필요한 정보를 명시적으로 검색하고 활용함으로써 더 모듈화되고 해석 가능한 지식 활용을 가능하게 합니다.

 

**REALM의 학습 과정**

 

REALM의 학습은 크게 두 단계로 이루어집니다:

 

1. **검색기 학습**: 모델은 주어진 입력에 대해 관련 문서를 검색하는 방법을 학습합니다. 이를 위해, 마스킹된 언어 모델링(masked language modeling)을 학습 신호로 사용하여, 모델이 입력의 일부 단어를 마스킹하고 해당 단어를 예측하도록 합니다. 이 과정에서 모델은 대규모 코퍼스에서 관련 문서를 검색하고, 해당 문서를 기반으로 마스킹된 단어를 예측합니다.

 

2. **언어 모델 학습**: 검색된 문서를 활용하여 마스킹된 단어를 예측하는 언어 모델을 학습합니다. 이때, 검색기의 성능이 언어 모델의 예측 정확도에 직접적인 영향을 미치므로, 검색기와 언어 모델을 공동으로 최적화합니다.

 

**구체적인 예시**

 

예를 들어, 입력 문장이 "The [MASK] is the currency of the United Kingdom"이라고 가정해봅시다. 여기서 [MASK] 부분을 예측하기 위해, 모델은 "파운드"라는 단어를 예측해야 합니다. REALM은 먼저 "영국의 통화"에 대한 정보를 포함하는 문서를 위키피디아에서 검색하고, 해당 문서를 기반으로 [MASK]에 해당하는 단어를 "파운드"로 예측합니다.

 

**수식 설명**

 

REALM의 목표는 주어진 입력 $x$에 대해 마스킹된 단어 $y$의 확률 $P(y|x)$를 최대화하는 것입니다. 이를 위해, 모델은 잠재 변수 $z$를 도입하여, $z$는 검색된 문서를 나타냅니다. 따라서, $P(y|x)$는 다음과 같이 표현됩니다:

 

$$P(y|x) = \sum_{z \in Z} P(y|x, z) P(z|x)$$

 

여기서 $Z$는 전체 코퍼스입니다. $P(z|x)$는 주어진 입력 $x$에 대해 문서 $z$를 검색할 확률을 나타내며, $P(y|x, z)$는 입력 $x$와 검색된 문서 $z$를 기반으로 마스킹된 단어 $y$를 예측할 확률을 나타냅니다.

 

REALM은 이러한 접근 방식을 통해 언어 모델이 대규모 코퍼스에서 관련 정보를 효율적으로 검색하고 활용하여, 더 정확하고 해석 가능한 예측을 수행할 수 있도록 합니다.

 

 

참고: https://jeonsworld.github.io/NLP/realm/

728x90
반응형