LLM에서의 벡터와 임베딩
1. 개요
대규모 언어모델(LLM, Large Language Model)은 텍스트 데이터를 수치화된 형태로 표현하여 학습과 추론을 수행한다.
이때 자연어를 고정된 길이의 수치 벡터(Vector) 로 변환한 결과가 임베딩(Embedding) 이다.
즉, 임베딩은 단어·문장·문서를 벡터 공간에 매핑하는 과정이며, 벡터는 그 결과물(수치 표현) 이다.
2. 벡터(Vector)
(1) 벡터의 개념
- 벡터는 단어·문장 등의 의미를 N차원 공간의 좌표로 표현한 수학적 구조이다.
- 각 차원은 의미적 특징(feature)을 나타내며, 단어 간 유사도 계산(코사인 유사도, 내적) 에 사용된다.
- 예를 들어, “king - man + woman ≈ queen” 과 같은 연산이 가능한 이유는 단어 의미가 벡터 공간상에서 방향과 거리로 표현되기 때문이다.
(2) 벡터의 특징
- 고정 길이의 실수 벡터
- 벡터 간 거리 = 의미적 유사도
- LLM 내부에서 Attention, Query-Key-Value 계산 등에 활용
3. 임베딩(Embedding)
(1) 임베딩의 개념
- 임베딩(Embedding) 은 비정형 데이터(단어, 문장, 이미지 등)를 모델이 이해할 수 있는 벡터 형태로 변환하는 과정 또는 결과를 의미한다.
- LLM에서는 토큰화된 단어를 고차원 벡터로 매핑하는 층(Embedding Layer) 을 사용한다.
- 임베딩은 의미적 관계를 유지하면서 데이터 차원을 축소해 모델이 언어 간 문맥(Context)을 학습하도록 돕는다.
(2) 임베딩의 특징
- 의미적 관계 포착: 유사한 단어들은 벡터 공간에서 서로 가까운 위치에 배치.
-> 단어, 문장, 이미지 등 다양한 데이터의 의미적 유사성을 포착하고 모델이 더 잘 이해하고 일반화 가능. - 데이터 차원 축소: 복잡하고 고차원인 데이터를 저차원의 조밀한(밀집된) 벡터로 변환.
-> 데이터 처리 시 효율성을 높이고, 차원의 저주 문제를 완화. - 머신러닝 모델의 이해: 컴퓨터는 숫자만 이해할 수 있으므로, 임베딩은 텍스트, 이미지 등 비수학적 데이터를 컴퓨터가 처리할 수 있는 숫자 벡터로 변환.
-> 머신러닝 모델이 데이터를 이해하고 추론할 수 있는 기반 마련. - 자동 특징 학습: 딥러닝 모델이 데이터를 분석하여 중요한 특징들을 자동으로 학습하여 벡터로 표현.
-> 사람이 일일이 특징을 지정해야 했던 것과 달리, 임베딩은 이런 과정을 자동화. - 다양한 분야에 적용: 자연어 처리뿐만 아니라 이미지, 그래프 등 다양한 데이터를 다루는 분야에서 활용.
-> 예를 들어, 이미지 임베딩은 시각적 특징을 벡터로 나타내며, 추천 시스템에서도 범주형 데이터를 의미 있는 벡터로 표현하는 데 사용.
4. 벡터와 임베딩의 관계
| 구분 | 벡터 | 임베딩 |
| 의미 | 데이터를 수치로 표현한 결과 | 데이터를 벡터로 변환하는 과정 또는 매핑 |
| 형태 | n차원 수치 배열 | 학습된 벡터 표현 공간 |
| 역할 | 유사도 계산, 검색, 연산 | 의미 보존, 차원 축소, 모델 입력 |
| 예시 | [0.21, -0.43, 0.89, …] | Word2Vec, BERT 임베딩 등 |
5. LLM에서의 활용 예시
- 토큰 임베딩: LLM 입력 문장의 각 토큰(Token)을 고정된 길이의 임베딩 벡터로 변환.
- 위치 임베딩: 토큰의 순서 정보를 담는 벡터를 추가하여, 단어의 위치가 문장의 의미에 미치는 영향을 반영.
- RAG (검색 증강 생성): RAG 시스템은 사용자 질의와 외부 데이터베이스의 문서를 모두 벡터로 변환하여 벡터 데이터베이스에 저장. 질의 벡터와 가장 가까운(유사한) 문서 벡터를 검색하여 LLM에 컨텍스트로 제공.
6. 결론
벡터와 임베딩은 LLM의 핵심 구성요소로, 자연어를 기계가 이해 가능한 수학적 표현공간(semantic space) 으로 변환함으로써
의미 기반 추론, 검색, 요약, 생성을 가능하게 한다. 즉, LLM의 “이해력”은 임베딩의 품질과 벡터 표현의 정밀도에 의해 결정된다.
'IT Tech.' 카테고리의 다른 글
| (AI) TTFT vs. TPOT vs. Goodput (0) | 2025.11.20 |
|---|---|
| (AI) 글리치 토큰 필터링 (0) | 2025.11.19 |
| (소프트웨어공학) 스캐터 개더(Scatter Gather) 패턴 (0) | 2025.11.18 |
| (소프트웨어공학) 실행 오케스트레이터 패턴 (0) | 2025.11.18 |
| (소프트웨어공학) Pipes and Filters 패턴 (0) | 2025.11.17 |