43장. 모델 선택 의사결정 트리

이 장의 목표 책 전체를 한 장의 결정 트리로 압축합니다.

새 작업이 떨어졌을 때 “어떤 모델을 어떻게 받아 어떻게 돌릴지” 1분 안에 답이 나오게 합니다.

43.1 가장 큰 결정 트리

새 작업이 들어왔다
  │
  ├─ 클라우드 AI로 충분한가? (보안·비용·통제 문제 없음)
  │   ├─ 예 → 클라우드 (이 책 무의미)
  │   └─ 아니오 ↓
  │
  ├─ 어떤 종류 작업인가?
  │   ├─ 일반 대화·요약 → Instruct 모델
  │   ├─ 코드 작성·리뷰 → Coder Instruct
  │   ├─ 수학·복잡 추론 → Reasoning
  │   ├─ 이미지·차트 분석 → VL
  │   ├─ 음성 받아쓰기 → Whisper STT
  │   ├─ 사내 문서 답변 → Instruct + 임베딩 (RAG)
  │   └─ 외부 도구 호출 → Instruct + Function Calling/MCP
  │
  └─ 내 맥 메모리는?
      ├─ 16GB → 7~8B Q4_K_M
      ├─ 32GB → 14B Q5_K_M
      ├─ 48GB → 27~32B Q4
      ├─ 64GB → 32B Q4_K_M ★ (표준)
      └─ 96GB+ → 70B Q4

43.2 모델 시리즈 추천 (2026 기준)

대체 가능한 후보들. 모두 Mac에서 검증됨.

일반 대화·요약·문서

Qwen3-Instruct (한국어·다국어 강함)
Gemma 3 27B (Google, 톤 좋음)
Llama 3.3 Instruct (영어 강함, 라이선스 표기 필요)
Mistral Large (서구권 표준)

코딩

Qwen2.5-Coder-32B-Instruct ★
DeepSeek-Coder-V2
CodeLlama (옛 표준)

추론(Reasoning)

DeepSeek-R1-Distill-Qwen-32B
Qwen3-32B-Thinking
QwQ-32B

비전 (VL)

Qwen2.5-VL-32B ★
Gemma 3 (비전 지원)
LLaVA-1.6-34B

임베딩

bge-m3 (다국어 표준)
nomic-embed-text (가볍고 빠름)
jina-embeddings-v3 (긴 컨텍스트)

음성

Whisper large-v3 / turbo (STT)
Kokoro (TTS, 다국어)

43.3 양자화 결정

내 가용 메모리 > 모델 FP16 크기?
  └─ 예 → FP16 또는 Q8
  └─ 아니오 ↓
내 가용 메모리 > 모델 Q8 크기?
  └─ 예 → Q8
  └─ 아니오 ↓
내 가용 메모리 > 모델 Q6 크기?
  └─ 예 → Q6_K
  └─ 아니오 ↓
내 가용 메모리 > 모델 Q5 크기?
  └─ 예 → Q5_K_M
  └─ 아니오 ↓
Q4_K_M  ← 가장 흔한 선택
  └─ 부족하면 Q3_K_M (최후의 수단)

이 책의 디폴트: Q4_K_M.

43.4 포맷·도구 결정

처음 시작?
  └─ LM Studio + GGUF

자동화·API 필요?
  └─ Ollama

코딩 어시스턴트?
  └─ Ollama + Continue.dev

사내 챗봇?
  └─ Ollama + Open WebUI + Qdrant

속도 최우선?
  └─ MLX (mlx-lm 또는 LM Studio MLX 모드)

새 모델 즉시 테스트?
  └─ llama.cpp 직접 (또는 LM Studio GGUF 임포트)

43.5 컨텍스트 결정

짧은 대화·코드 함수    → 8K
회의록·보고서          → 16K~32K
긴 문서 분석           → 32K~64K (메모리 확인)
책 한 권 분량          → 128K 이상 (정말 필요할 때만)

기본은 16K 부터. 필요하면 늘리기.

43.6 Temperature 결정

JSON·분류              → 0.0~0.2
코드 작성              → 0.1~0.3
회의록 요약            → 0.2~0.4
메일·문서 작성         → 0.4~0.6
한국어 작문            → 0.5~0.7
브레인스토밍·창작      → 0.7~0.9

한국어는 영어보다 한 단계 낮게.

43.7 RAG vs 파인튜닝 결정

내가 원하는 게:
  ├─ 사내 문서 답변
  │   → RAG ★
  ├─ 자주 바뀌는 데이터
  │   → RAG ★
  ├─ 회사 톤·스타일 답변
  │   → 시스템 프롬프트 + Few-shot
  ├─ 정형 출력 (JSON 등)
  │   → 프롬프트 + Structured Output
  ├─ 새 작업 자체 학습
  │   → LoRA 파인튜닝
  ├─ 새 도메인 전문성
  │   → 파인튜닝 (대량 데이터 필요)
  └─ 새 언어
      → 파인튜닝 (매우 큰 데이터)

첫 시도는 항상 프롬프트, 다음은 RAG, 최후가 파인튜닝.

43.8 안전 결정

회사 도입?
  ├─ 라이선스 검증 (12장) → 통과
  ├─ 시스템 프롬프트 표준 정의 (34장)
  ├─ Output Guard 적용 (35장)
  ├─ 입력·출력 로그 (35장)
  ├─ 사내 안전 테스트 셋 (35장·40장)
  └─ 인간 검토 단계 (29장)

이 다섯이 갖춰지지 않으면 베타 단계로만.

43.9 64GB 맥 표준 셋업 한 장

┌────────────────────────────────────────┐
│  CHAT/REASON: qwen3:32b (Q4_K_M)       │
│  CODER:       qwen2.5-coder:32b        │
│  FIM:         qwen2.5-coder:1.5b-base  │
│  VL:          qwen2.5vl:7b             │
│  EMBED:       bge-m3                   │
│  STT:         whisper-large-v3-turbo   │
│                                        │
│  도구:                                  │
│    LM Studio (학습·비교용)              │
│    Ollama    (API·자동화)              │
│    Continue.dev (VS Code)              │
│    Open WebUI (사내 챗봇 — 선택)        │
│                                        │
│  컨텍스트: 16K~32K                      │
│  Temperature: 작업별 0.1~0.7           │
└────────────────────────────────────────┘

이게 책의 표준 결과물.

43.10 1년 후 점검

이 책이 6~12개월 지나면 모델 이름은 바뀝니다. 그래도 결정 트리는 유효합니다.

매년 한 번:

같은 카테고리의 새 SOTA 모델로 교체
40장 평가 셋 다시 돌림
변화 큰 곳만 업그레이드

이 장에서 기억할 한 가지

모델 선택 = 3축 결정:

작업 종류 → 모델 유형 (Instruct/Coder/VL/…)

내 메모리 → 모델 크기·양자화

목적 → 도구 (LM Studio/Ollama/MLX/…)

이 세 축이 정해지면 나머지는 디테일.

손으로 해볼 것

1. 본인 표준 셋업 한 장 적어두기

43.9 절의 박스를 본인 메모리·작업 기준으로 다시 작성. 사내 위키에 올리거나 dotfiles에 보관.

2. 의사결정 단축 카드 만들기

자주 묻는 5가지 작업에 대해:

회의록 요약  → qwen3:32b, temp 0.3, ctx 16K
코드 리뷰    → qwen2.5-coder:32b, temp 0.2, ctx 32K
사내 챗봇    → qwen3:32b + bge-m3 + RAG, temp 0.2
번역         → qwen3:32b, temp 0.4
브레인스토밍 → qwen3:32b, temp 0.8

이런 1줄 매핑을 갖고 있으면 매번 고민이 사라집니다.

다음 장(마지막)에서는 앞으로 공부할 것들 — 이 책 이후의 학습 지도를 정리합니다.

Keyboard shortcuts

맥에서 시작하는 로컬 AI