728x90
반응형

이론공부/딥러닝 6

Dense / Multi-Vector / Lexical retrieval

Retrieval 방식( Dense / Multi-Vector / Lexical)이 수식적으로는 어떻게 표현되는지 간단히 보여드리겠습니다. 설명을 위해 예시 문장을 “The cat sat on the mat.” 로 잡았습니다.1. Dense Retrieval핵심 개념입력 문장(쿼리든 문서든)을 하나의 벡터로 요약(임베딩)한 뒤, 그 벡터들 간의 유사도(점곱, 코사인 등)를 구해 점수가 높은 순으로 검색하는 방식입니다.예시 & 수식토큰화 & Transformer 출력문장 S=\text{S} = "The cat sat on the mat."이를 BERT 계열 모델(BGE-M3 등)에 입력하면, 마지막 레이어에서 각 토큰마다 hi∈Rd\mathbf{h}_i \in \mathbb{R}^d (차원 dd)의 벡터가..

SBERT

SBERT(Sentence-BERT)는 BERT의 아이디어를 기반으로 한 문장 임베딩 기술입니다. 기존의 BERT는 주로 문장 수준의 표현을 생성하기 위해 개발되었지만, SBERT는 문장 간 유사도 측정 등과 같은 다양한 문장 수준의 작업에 특화된 임베딩을 생성합니다.SBERT의 주요 특징과 기능은 다음과 같습니다:1. 문장 임베딩 생성:SBERT는 주어진 문장에 대한 고정 크기의 벡터 표현을 생성합니다. 이 벡터는 문장의 의미와 구조를 잘 반영하도록 훈련됩니다.2. 문장 간 유사도 측정:SBERT의 임베딩은 문장 간 유사도를 측정하는 데 사용될 수 있습니다. 예를 들어, 두 문장의 임베딩 간의 코사인 유사도를 계산하여 문장 간의 유사도를 평가할 수 있습니다.3. Transfer Learning 및 Fi..

어텐션, Attention

기본 어텐션 (Basic Attention):가장 간단한 형태의 어텐션 메커니즘으로, 주어진 쿼리와 키 간의 유사도를 계산하여 가중치를 부여합니다.유사도를 계산하는 방법으로는 내적(dot product), 유클리디안 거리(euclidean distance), 코사인 유사도(cosine similarity) 등이 사용될 수 있습니다.다양한 어텐션 종류:Scaled Dot-Product Attention: 내적으로 유사도를 계산한 후 스케일링하여 안정적인 학습을 돕습니다.Multi-Head Attention: 어텐션을 여러 개의 서브 어텐션 헤드로 나누어 병렬로 계산하고 결과를 결합합니다. 트랜스포머 모델에서 주로 사용됩니다.Self-Attention: 입력 시퀀스 내의 각 위치의 단어들 간의 상대적인 중요..

관계 추출 모델: Transformer

트랜스포머를 사용한 관계 추출 모델은 자연어 처리에서 엔터티(entity) 간의 관계를 파악하는 모델입니다. 이를 위해서는 텍스트에서 엔터티를 식별하고, 이들 간의 관계를 추출해야 합니다. 이런 모델을 만들 때 일반적인 접근 방법은 다음과 같습니다:입력 준비: 모델에 입력할 데이터를 준비합니다. 이는 텍스트 문장이며, 관계를 추출할 엔터티들은 특정 토큰으로 표시되어야 합니다.임베딩(Embedding): 입력 문장을 임베딩하여 모델이 이해할 수 있는 형태로 변환합니다. 트랜스포머에서는 임베딩 레이어를 통해 단어를 벡터 공간에 투영합니다.트랜스포머 레이어: 임베딩된 입력을 여러 개의 트랜스포머 블록으로 전달합니다. 각 블록은 셀프 어텐션(self-attention)과 feed-forward 네트워크를 포함하..

Attention, Self-Attention

Attention1) 항목별 가중치를 구하기 ex. 입학전형에서 수능 과목별 가중치를 다르게 준다라고 했을 때, 과목별 가중치를 구한다. 이때는 과목의 난이도와 중요도에 의해 가중치를 정함2) 항목별 가중치를 반영하여 종합 점수 구하기ex. 위 예시에서는 과목별 가중치를 곱한 뒤 모든 점수를 더해 가중 평균을 구하는 과정에 해당합니다. Attention(어텐션): 특정 정보에 집중하고 중요도를 부여하는 메커니즘어텐션은 자연어 처리에서 특정 단어나 문맥에 주목하거나 집중하는 메커니즘입니다.기존의 번역 모델에서는 입력 문장의 모든 단어를 고정된 크기의 벡터로 표현하는데, 어텐션은 이를 개선하였습니다.어텐션 메커니즘은 입력 문장의 각 단어가 출력 문장의 각 위치에 얼마나 중요한지를 판단하여 가중치를 부여합니다..

728x90
반응형