Embedding

이 장의 목표 모델 이름 끝에 붙는 꼬리표들을 모두 구분하게 됩니다.

같은 시리즈라도 어떤 건 대화용, 어떤 건 코드용, 어떤 건 그림용입니다. 잘못 받으면 답이 이상하게 나옵니다.

9.1 한 표로 보는 모델 종류

꼬리표	무엇	누가 쓰나
Base	사전학습만 한 원재료	파인튜닝 할 사람
Instruct	지시사항 따르도록 튜닝	대부분 사람
Chat	대화체로 다듬어짐	챗봇 만들 사람
Coder / Code	코드 특화	개발자
Reasoning / Thinking	추론 과정 길게 생성	수학·복잡 문제
VL / Vision	이미지 입력 가능	그림 분석
Audio / STT / TTS	음성 입출력	음성 도구
Embedding	벡터 생성	RAG 검색
Reranker	검색 결과 재정렬	RAG 검색 품질 향상

하나씩 봅니다.

9.2 Base 모델 — 재료

2장에서 본 그 단계입니다.

사전학습만 한 모델 = Base

특징:

인터넷의 글을 잘 이어 씁니다
질문에 답을 잘 못합니다
“한국의 수도는?” 이라고 물으면 “한국의 수도는?” 하고 똑같이 이어 쓸 수 있습니다

언제 쓰나:

내 데이터로 파인튜닝 할 때 (32장)
특수 목적의 모델을 처음부터 만들 때

보통 사람은 거의 안 씁니다.

9.3 Instruct 모델 — 표준 대화용

이게 여러분이 받을 모델의 95% 입니다.

지시사항을 따르도록 튜닝된 버전.

Qwen3-32B-Instruct
Llama-3.1-8B-Instruct
Gemma-3-27B-it      ← "it" 도 instruct의 한 표기

질문에 답합니다
명령을 따릅니다
회사 업무·일반 대화에 무난

기본 추천

9.4 Chat 모델 — 대화 강화판

Instruct에 한 발짝 더 나아간 버전.

Qwen3-32B-Chat
Llama-3-8B-Chat

다중 턴 대화에 더 자연스러움
시스템 프롬프트·역할극 잘함

Instruct와 Chat은 모델에 따라 거의 같은 의미 로 쓰이기도 합니다.

둘 중 뭐 받지? 같은 시리즈에 둘 다 있으면 Chat. 보통은 Instruct만 있는 경우가 많습니다.

9.5 Coder / Code — 개발자용

코드에 특화된 튜닝.

Qwen2.5-Coder-32B-Instruct
DeepSeek-Coder-V2-Instruct
CodeLlama-34B-Instruct

특징:

함수 작성·디버깅 강함
여러 언어 지원 (Python, TS, Go, Rust, PHP, …)
일반 대화는 보통 모델보다 어색할 수 있음
수십 종의 프로그래밍 언어를 본 모델

VS Code의 Continue.dev 같은 코딩 어시스턴트(37장) 에서 주로 씁니다.

9.6 Reasoning / Thinking — 추론용

답을 바로 내지 않고, 생각 과정을 길게 적어가며 답하는 모델.

DeepSeek-R1
Qwen3-32B-Thinking
QwQ-32B
o1-style models

특징:

[질문] 1, 1, 2, 3, 5, 8 다음 숫자는?

[모델 출력]
<think>
이 수열을 분석해보자.
1, 1, 2, 3, 5, 8
2 = 1 + 1
3 = 1 + 2
5 = 2 + 3
8 = 3 + 5
즉 피보나치 수열이다.
다음은 5 + 8 = 13
</think>

13입니다.

수학·논리·복잡 디버깅에 강함
답이 나올 때까지 시간이 오래 걸림
출력 토큰이 많이 나옴 (속도 체감 느림)
모델 카드에 <think> 같은 특수 토큰이 정의됨

언제 쓰나:

어려운 수학·코딩 문제
복잡한 의사결정 분석
빠른 대화엔 부적합

9.7 VL / Vision — 그림도 보는 모델

이미지를 입력으로 받을 수 있는 모델.

Qwen2.5-VL-32B-Instruct
LLaVA-1.6-34B
Llama-3.2-Vision-11B-Instruct
Gemma-3-27B-it (이미지 지원)

활용:

스크린샷 분석
차트·그래프 해석
표 → 텍스트 변환
OCR 보조
UI 디자인 피드백

주의: GGUF가 비전을 지원하려면 일반 모델보다 약간 복잡한 셋업이 필요합니다. LM Studio·Ollama는 31장에서 자세히.

9.8 Audio / STT / TTS — 음성

종류	용도
STT (Speech-To-Text)	음성을 텍스트로. 예: Whisper
TTS (Text-To-Speech)	텍스트를 음성으로. 예: XTTS, Kokoro
Audio LLM	음성을 직접 이해. 예: Qwen2.5-Omni

회의록 자동화·받아쓰기 도구에 많이 씁니다. 31장에서 다룹니다.

9.9 Embedding 모델 — 검색용 별종

이건 글을 쓰는 모델이 아닙니다. 문장을 숫자 벡터로 바꾸는 모델입니다.

예시:

"오늘 회의 어땠어?"
        ↓ (embedding 모델)
[0.12, -0.45, 0.88, ..., 0.03]   (수백~수천 차원의 벡터)

비슷한 의미를 가진 문장끼리 가까운 벡터 가 됩니다.

이걸 이용해서 의미 기반 검색 을 합니다.

RAG(26장)의 핵심 부품입니다.

대표 모델:

BAAI/bge-m3
intfloat/e5-mistral-7b-instruct
nomic-embed-text
jina-embeddings-v3

Instruct 모델 대신 받지 마세요. 이건 답을 만들 수 없습니다.

9.10 Reranker — 검색 결과 정리하는 모델

Embedding으로 1차 후보를 찾은 뒤 진짜 관련도 높은 순서로 다시 정렬하는 모델.

RAG의 검색 품질을 한 단계 끌어올립니다.

BAAI/bge-reranker-v2-m3
jina-reranker-v2

27장에서 다시 다룹니다.

9.11 그 외 자주 보는 꼬리표

꼬리표	의미
`-it`	instruction-tuned (= Instruct)
`-MoE` 또는 `A3B`, `A22B`	MoE 모델 (14장)
`-Distill-`	큰 모델 능력을 작은 모델에 증류
`-DPO`	DPO 정렬 적용
`-Uncensored`	안전장치 제거 (위험 — 12장)
`-Abliterated`	거절 회로 우회 (위험)
`-AWQ`, `-GPTQ`	다른 양자화 방식 (10장)
`-128K`, `-1M`	컨텍스트 길이 표시

9.12 그래서 나는 뭘 받아야 하나?

케이스별 한 줄 처방

내 목적	받아야 할 종류
회사 일반 대화·요약·문서	Instruct (또는 Chat)
코딩 어시스턴트	Coder Instruct
수학·복잡 추론	Reasoning (느림 감수)
스크린샷·차트 분석	VL (Vision)
회의록 받아쓰기	Whisper (STT)
사내 문서 챗봇 (RAG)	Instruct + Embedding 두 개
음성 답변 챗봇	Instruct + TTS 두 개

이 장에서 기억할 한 가지

모델 받기 직전에 꼬리표를 꼭 확인하세요.

Base / Instruct / Coder / Reasoning / VL / Embedding… 이 중 잘못 받으면 답이 안 나오거나 엉뚱한 결과가 나옵니다.

헷갈리면 Instruct 가 안전한 출발점입니다.

손으로 해볼 것

1. 같은 시리즈의 변종 비교

Hugging Face에서 Qwen3 를 검색하고 다음 변종 페이지를 차례로 띄워보세요.

Qwen3-32B (Base)
Qwen3-32B-Instruct
Qwen3-32B-Thinking
Qwen2.5-VL-32B-Instruct
Qwen2.5-Coder-32B-Instruct

각 페이지 첫 줄에 적힌 차이점을 메모해보세요.

2. 내 업무에 맞는 모델 종류 결정

다음 빈칸을 채워보세요.

내 주된 목적:           __________________
받을 모델 종류:         Instruct / Coder / Reasoning / VL / ...
보조로 받을 모델:       (RAG라면 Embedding 추가)

이 결정은 17장에서 실제 다운로드로 이어집니다.

다음 장에서는 Safetensors / GGUF / MLX 파일 포맷의 차이를 봅니다.

같은 모델인데 어떤 형식으로 받아야 내 도구에서 도는지가 결정됩니다.

Keyboard shortcuts

맥에서 시작하는 로컬 AI