728x90
반응형

이론공부 30

Dense / Multi-Vector / Lexical retrieval

Retrieval 방식( Dense / Multi-Vector / Lexical)이 수식적으로는 어떻게 표현되는지 간단히 보여드리겠습니다. 설명을 위해 예시 문장을 “The cat sat on the mat.” 로 잡았습니다.1. Dense Retrieval핵심 개념입력 문장(쿼리든 문서든)을 하나의 벡터로 요약(임베딩)한 뒤, 그 벡터들 간의 유사도(점곱, 코사인 등)를 구해 점수가 높은 순으로 검색하는 방식입니다.예시 & 수식토큰화 & Transformer 출력문장 S=\text{S} = "The cat sat on the mat."이를 BERT 계열 모델(BGE-M3 등)에 입력하면, 마지막 레이어에서 각 토큰마다 hi∈Rd\mathbf{h}_i \in \mathbb{R}^d (차원 dd)의 벡터가..

가상환경(Virtual Environment)과 도커(Docker)의 비교, 사용 환경

가상환경(Virtual Environment)과 도커(Docker)의 차이1. 가상환경(Virtual Environment)가상환경은 Python 개발 시 주로 사용하는 환경 격리 도구로, 프로젝트별로 필요한 패키지를 독립적으로 관리할 수 있도록 도와줍니다. Python의 기본 라이브러리와 별개로 프로젝트마다 특정 버전의 패키지를 설치해 충돌을 방지합니다.기본 개념:Python 프로젝트마다 독립적인 패키지 환경을 제공하여, 다른 프로젝트와 충돌 없이 실행할 수 있도록 함.주요 도구:venv, virtualenv, conda장점간단한 설정: Python 환경 내에서 빠르게 설정하고 사용할 수 있음.경량성: 가상환경은 단순히 Python 패키지를 분리 관리하므로 리소스 소모가 적음.Python 생태계와 친화..

이론공부 2025.01.05

대용량 데이터셋이 뭐고 어떻게 처리하면 좋을까

혹시 틀린 정보가 있다면 알려주시기 바랍니다!!대용량 데이터셋의 기준대용량 데이터셋의 기준은 사용 사례와 산업별로 다를 수 있지만, 일반적으로 다음과 같은 조건이 포함됩니다:크기 (Size):데이터가 기가바이트(GB), 테라바이트(TB), 페타바이트(PB) 이상일 때 대용량으로 간주됩니다.예: 동영상 처리, 고해상도 이미지 데이터, IoT 센서 데이터 등.속도 (Velocity):데이터가 실시간으로 대량 생성되어야 처리해야 하는 경우.예: 금융 거래 데이터, 소셜 미디어 스트림.다양성 (Variety):데이터가 구조적(SQL), 비구조적(텍스트, 이미지), 반구조적(JSON) 형태로 다양하게 포함될 때.예: 멀티미디어 데이터, 로그 데이터.정확성 (Veracity):데이터가 불완전하거나 잡음(noise)..

TDA, 위상학적 분석

https://youtu.be/dv5W-_kWRYM?si=Jfwxz7OZMph7gFTF  영상은 통계적 추정을 통해 데이터 분석의 기초를 다루고 있으며, 데이터 속에서 유의미한 특성을 추출하는 과정을 설명합니다. 김지수 박사는 우주의 구조를 예로 들어 데이터 군집화와 위상적 지식의 중요성을 강조하며, 실질적인 문제 해결을 위한 다양한 방법론을 소개합니다. 이를 통해 청중들은 통계적 분석의 실용성과 응용 가능성을 이해하고, 최신 데이터 과학 기술에 대한 통찰을 얻을 수 있습니다. 1. 🌌 발표자 소개와 주제 개요 발표자 김지수는 카네기 멜론 대학교에서 공부하고 현재 프랑스의 INRIA 연구소에서 데이터 분석을 연구하고 있다 .[1-2]발표 주제는 "위상적 자료 분석에 통계적 추정"이며, 약 30분간 발표..

Gaussian Process Regression(GPR), Bayesian Optimization(BO)

Gaussian Process and Bayesian Optimization:https://velog.io/@jaewonalive/Gaussian-process-and-Bayesian-Optimization Gaussian Process and Bayesian Optimization2021데이터 크리에이터 캠프 대회를 준비하는 팀원들끼리 스터디를 진행하면서 bayesian optimization 주제를 내가 맞게 되었다. Bayesian optimization을 찾아보던 중 gaussian process에 기반한 방법이라는 것을velog.ioLecture 15: Gaussian Processeshttps://www.cs.cornell.edu/courses/cs4780/2018fa/lectures/lect..

SBERT

SBERT(Sentence-BERT)는 BERT의 아이디어를 기반으로 한 문장 임베딩 기술입니다. 기존의 BERT는 주로 문장 수준의 표현을 생성하기 위해 개발되었지만, SBERT는 문장 간 유사도 측정 등과 같은 다양한 문장 수준의 작업에 특화된 임베딩을 생성합니다.SBERT의 주요 특징과 기능은 다음과 같습니다:1. 문장 임베딩 생성:SBERT는 주어진 문장에 대한 고정 크기의 벡터 표현을 생성합니다. 이 벡터는 문장의 의미와 구조를 잘 반영하도록 훈련됩니다.2. 문장 간 유사도 측정:SBERT의 임베딩은 문장 간 유사도를 측정하는 데 사용될 수 있습니다. 예를 들어, 두 문장의 임베딩 간의 코사인 유사도를 계산하여 문장 간의 유사도를 평가할 수 있습니다.3. Transfer Learning 및 Fi..

어텐션, Attention

기본 어텐션 (Basic Attention):가장 간단한 형태의 어텐션 메커니즘으로, 주어진 쿼리와 키 간의 유사도를 계산하여 가중치를 부여합니다.유사도를 계산하는 방법으로는 내적(dot product), 유클리디안 거리(euclidean distance), 코사인 유사도(cosine similarity) 등이 사용될 수 있습니다.다양한 어텐션 종류:Scaled Dot-Product Attention: 내적으로 유사도를 계산한 후 스케일링하여 안정적인 학습을 돕습니다.Multi-Head Attention: 어텐션을 여러 개의 서브 어텐션 헤드로 나누어 병렬로 계산하고 결과를 결합합니다. 트랜스포머 모델에서 주로 사용됩니다.Self-Attention: 입력 시퀀스 내의 각 위치의 단어들 간의 상대적인 중요..

관계 추출 모델: Transformer

트랜스포머를 사용한 관계 추출 모델은 자연어 처리에서 엔터티(entity) 간의 관계를 파악하는 모델입니다. 이를 위해서는 텍스트에서 엔터티를 식별하고, 이들 간의 관계를 추출해야 합니다. 이런 모델을 만들 때 일반적인 접근 방법은 다음과 같습니다:입력 준비: 모델에 입력할 데이터를 준비합니다. 이는 텍스트 문장이며, 관계를 추출할 엔터티들은 특정 토큰으로 표시되어야 합니다.임베딩(Embedding): 입력 문장을 임베딩하여 모델이 이해할 수 있는 형태로 변환합니다. 트랜스포머에서는 임베딩 레이어를 통해 단어를 벡터 공간에 투영합니다.트랜스포머 레이어: 임베딩된 입력을 여러 개의 트랜스포머 블록으로 전달합니다. 각 블록은 셀프 어텐션(self-attention)과 feed-forward 네트워크를 포함하..

Attention, Self-Attention

Attention1) 항목별 가중치를 구하기 ex. 입학전형에서 수능 과목별 가중치를 다르게 준다라고 했을 때, 과목별 가중치를 구한다. 이때는 과목의 난이도와 중요도에 의해 가중치를 정함2) 항목별 가중치를 반영하여 종합 점수 구하기ex. 위 예시에서는 과목별 가중치를 곱한 뒤 모든 점수를 더해 가중 평균을 구하는 과정에 해당합니다. Attention(어텐션): 특정 정보에 집중하고 중요도를 부여하는 메커니즘어텐션은 자연어 처리에서 특정 단어나 문맥에 주목하거나 집중하는 메커니즘입니다.기존의 번역 모델에서는 입력 문장의 모든 단어를 고정된 크기의 벡터로 표현하는데, 어텐션은 이를 개선하였습니다.어텐션 메커니즘은 입력 문장의 각 단어가 출력 문장의 각 위치에 얼마나 중요한지를 판단하여 가중치를 부여합니다..

728x90
반응형