43장. 모델 선택 의사결정 트리
이 장의 목표 책 전체를 한 장의 결정 트리로 압축합니다.
새 작업이 떨어졌을 때 “어떤 모델을 어떻게 받아 어떻게 돌릴지” 1분 안에 답이 나오게 합니다.
43.1 가장 큰 결정 트리
새 작업이 들어왔다
│
├─ 클라우드 AI로 충분한가? (보안·비용·통제 문제 없음)
│ ├─ 예 → 클라우드 (이 책 무의미)
│ └─ 아니오 ↓
│
├─ 어떤 종류 작업인가?
│ ├─ 일반 대화·요약 → Instruct 모델
│ ├─ 코드 작성·리뷰 → Coder Instruct
│ ├─ 수학·복잡 추론 → Reasoning
│ ├─ 이미지·차트 분석 → VL
│ ├─ 음성 받아쓰기 → Whisper STT
│ ├─ 사내 문서 답변 → Instruct + 임베딩 (RAG)
│ └─ 외부 도구 호출 → Instruct + Function Calling/MCP
│
└─ 내 맥 메모리는?
├─ 16GB → 7~8B Q4_K_M
├─ 32GB → 14B Q5_K_M
├─ 48GB → 27~32B Q4
├─ 64GB → 32B Q4_K_M ★ (표준)
└─ 96GB+ → 70B Q4
43.2 모델 시리즈 추천 (2026 기준)
대체 가능한 후보들. 모두 Mac에서 검증됨.
일반 대화·요약·문서
- Qwen3-Instruct (한국어·다국어 강함)
- Gemma 3 27B (Google, 톤 좋음)
- Llama 3.3 Instruct (영어 강함, 라이선스 표기 필요)
- Mistral Large (서구권 표준)
코딩
- Qwen2.5-Coder-32B-Instruct ★
- DeepSeek-Coder-V2
- CodeLlama (옛 표준)
추론(Reasoning)
- DeepSeek-R1-Distill-Qwen-32B
- Qwen3-32B-Thinking
- QwQ-32B
비전 (VL)
- Qwen2.5-VL-32B ★
- Gemma 3 (비전 지원)
- LLaVA-1.6-34B
임베딩
- bge-m3 (다국어 표준)
- nomic-embed-text (가볍고 빠름)
- jina-embeddings-v3 (긴 컨텍스트)
음성
- Whisper large-v3 / turbo (STT)
- Kokoro (TTS, 다국어)
43.3 양자화 결정
내 가용 메모리 > 모델 FP16 크기?
└─ 예 → FP16 또는 Q8
└─ 아니오 ↓
내 가용 메모리 > 모델 Q8 크기?
└─ 예 → Q8
└─ 아니오 ↓
내 가용 메모리 > 모델 Q6 크기?
└─ 예 → Q6_K
└─ 아니오 ↓
내 가용 메모리 > 모델 Q5 크기?
└─ 예 → Q5_K_M
└─ 아니오 ↓
Q4_K_M ← 가장 흔한 선택
└─ 부족하면 Q3_K_M (최후의 수단)
이 책의 디폴트:
Q4_K_M.
43.4 포맷·도구 결정
처음 시작?
└─ LM Studio + GGUF
자동화·API 필요?
└─ Ollama
코딩 어시스턴트?
└─ Ollama + Continue.dev
사내 챗봇?
└─ Ollama + Open WebUI + Qdrant
속도 최우선?
└─ MLX (mlx-lm 또는 LM Studio MLX 모드)
새 모델 즉시 테스트?
└─ llama.cpp 직접 (또는 LM Studio GGUF 임포트)
43.5 컨텍스트 결정
짧은 대화·코드 함수 → 8K
회의록·보고서 → 16K~32K
긴 문서 분석 → 32K~64K (메모리 확인)
책 한 권 분량 → 128K 이상 (정말 필요할 때만)
기본은 16K 부터. 필요하면 늘리기.
43.6 Temperature 결정
JSON·분류 → 0.0~0.2
코드 작성 → 0.1~0.3
회의록 요약 → 0.2~0.4
메일·문서 작성 → 0.4~0.6
한국어 작문 → 0.5~0.7
브레인스토밍·창작 → 0.7~0.9
한국어는 영어보다 한 단계 낮게.
43.7 RAG vs 파인튜닝 결정
내가 원하는 게:
├─ 사내 문서 답변
│ → RAG ★
├─ 자주 바뀌는 데이터
│ → RAG ★
├─ 회사 톤·스타일 답변
│ → 시스템 프롬프트 + Few-shot
├─ 정형 출력 (JSON 등)
│ → 프롬프트 + Structured Output
├─ 새 작업 자체 학습
│ → LoRA 파인튜닝
├─ 새 도메인 전문성
│ → 파인튜닝 (대량 데이터 필요)
└─ 새 언어
→ 파인튜닝 (매우 큰 데이터)
첫 시도는 항상 프롬프트, 다음은 RAG, 최후가 파인튜닝.
43.8 안전 결정
회사 도입?
├─ 라이선스 검증 (12장) → 통과
├─ 시스템 프롬프트 표준 정의 (34장)
├─ Output Guard 적용 (35장)
├─ 입력·출력 로그 (35장)
├─ 사내 안전 테스트 셋 (35장·40장)
└─ 인간 검토 단계 (29장)
이 다섯이 갖춰지지 않으면 베타 단계로만.
43.9 64GB 맥 표준 셋업 한 장
┌────────────────────────────────────────┐
│ CHAT/REASON: qwen3:32b (Q4_K_M) │
│ CODER: qwen2.5-coder:32b │
│ FIM: qwen2.5-coder:1.5b-base │
│ VL: qwen2.5vl:7b │
│ EMBED: bge-m3 │
│ STT: whisper-large-v3-turbo │
│ │
│ 도구: │
│ LM Studio (학습·비교용) │
│ Ollama (API·자동화) │
│ Continue.dev (VS Code) │
│ Open WebUI (사내 챗봇 — 선택) │
│ │
│ 컨텍스트: 16K~32K │
│ Temperature: 작업별 0.1~0.7 │
└────────────────────────────────────────┘
이게 책의 표준 결과물.
43.10 1년 후 점검
이 책이 6~12개월 지나면 모델 이름은 바뀝니다. 그래도 결정 트리는 유효합니다.
매년 한 번:
- 같은 카테고리의 새 SOTA 모델로 교체
- 40장 평가 셋 다시 돌림
- 변화 큰 곳만 업그레이드
이 장에서 기억할 한 가지
모델 선택 = 3축 결정:
- 작업 종류 → 모델 유형 (Instruct/Coder/VL/…)
- 내 메모리 → 모델 크기·양자화
- 목적 → 도구 (LM Studio/Ollama/MLX/…)
이 세 축이 정해지면 나머지는 디테일.
손으로 해볼 것
1. 본인 표준 셋업 한 장 적어두기
43.9 절의 박스를 본인 메모리·작업 기준으로 다시 작성. 사내 위키에 올리거나 dotfiles에 보관.
2. 의사결정 단축 카드 만들기
자주 묻는 5가지 작업에 대해:
회의록 요약 → qwen3:32b, temp 0.3, ctx 16K
코드 리뷰 → qwen2.5-coder:32b, temp 0.2, ctx 32K
사내 챗봇 → qwen3:32b + bge-m3 + RAG, temp 0.2
번역 → qwen3:32b, temp 0.4
브레인스토밍 → qwen3:32b, temp 0.8
이런 1줄 매핑을 갖고 있으면 매번 고민이 사라집니다.
다음 장(마지막)에서는 앞으로 공부할 것들 — 이 책 이후의 학습 지도를 정리합니다.