Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

4장. 모델 크기와 메모리, 내 맥에 들어갈까?

이 장의 목표 모델 이름만 보고 “내 맥에서 돌까?” 를 30초 만에 가늠할 수 있게 됩니다.

계산식 하나만 외우면 됩니다.


4.1 한 줄 계산식

모델이 메모리에 차지하는 크기는 대략 이렇게 계산합니다.

필요 메모리(GB) ≈ 파라미터 수(B) × 한 숫자의 비트 수 / 8

/ 8 인 이유는 8비트 = 1바이트 이기 때문입니다.

예시.

32B 모델, 한 숫자를 16비트로 저장(FP16)
→ 32 × 16 / 8 = 64GB
32B 모델, 한 숫자를 4비트로 저장(Q4)
→ 32 × 4 / 8 = 16GB

이게 4장의 거의 전부입니다.


4.2 표 한 장으로 정리

파라미터 × 비트 / 8 을 미리 다 계산해 둔 표입니다.

모델 크기FP16 (16bit)Q8 (8bit)Q5 (5bit)Q4 (4bit)
3B약 6GB약 3GB약 2GB약 1.5GB
7B약 14GB약 7GB약 4.5GB약 3.5GB
8B약 16GB약 8GB약 5GB약 4GB
14B약 28GB약 14GB약 9GB약 7GB
27B약 54GB약 27GB약 17GB약 14GB
32B약 64GB약 32GB약 20GB약 16GB
70B약 140GB약 70GB약 44GB약 35GB

주의 이 숫자는 모델 가중치만의 크기입니다. 실제 실행할 때는 여기에 여유 메모리가 더 필요합니다.


4.3 실제 메모리는 여기에 +α

실행할 때는 가중치 외에도 다음이 필요합니다.

실사용 메모리 ≈ 가중치 + KV Cache + 런타임 오버헤드 + macOS·앱 메모리
  • KV Cache 대화가 길어질수록 늘어남 (6장에서 자세히)
  • 런타임 오버헤드 추론 엔진이 기본으로 잡는 메모리
  • macOS·앱 메모리 보통 4~8GB는 시스템·브라우저·IDE가 씀

거친 어림셈:

실사용 메모리 ≈ 가중치 × 1.3 + 6GB

예시. 32B Q4를 8K 컨텍스트로 돌리면:

가중치 16GB × 1.3 + 6GB ≈ 26~28GB

64GB 맥에서는 여유 있습니다.

70B Q4를 같은 조건으로 돌리면:

35GB × 1.3 + 6GB ≈ 51~52GB

64GB 맥에서 돌긴 도는데 빡빡합니다. 브라우저 켜놓고 IDE 켜놓으면 swap이 발생합니다.


4.4 맥 통합 메모리의 이점

일반 PC에서는

시스템 RAM ≠ GPU VRAM

이 둘이 따로따로 존재합니다.

GPU에 24GB VRAM이 있어도 거기에 안 들어가면 모델이 못 돌거나 극단적으로 느려집니다.

맥은 다릅니다.

통합 메모리(Unified Memory)
= CPU 메모리 = GPU 메모리

CPU도 GPU도 같은 메모리 풀 을 봅니다.

그래서 64GB 맥은 이론상 64GB 가까이를 모델에 할당할 수 있습니다.

실제로는 macOS와 앱들이 좀 잡고 있으니 대략 50GB 정도는 모델에 쓸 수 있다 고 보면 됩니다.


4.5 내 맥 기준 권장 영역

16GB 통합 메모리

후보권장
3B Q4~Q8
7B Q4✅ (컨텍스트 8K)
7B Q5/Q6△ (브라우저 끄고)
14B Q4△ (가능하지만 빡빡)
32B 이상

18~24GB

후보권장
7B Q5/Q6
8B Q5/Q6
14B Q4
14B Q5

32~36GB

후보권장
14B Q5/Q6
27B Q4
32B Q4△ (가능, 컨텍스트 8K 권장)

48GB

후보권장
27B Q5
32B Q4
32B Q5

64GB ★ (이 책의 표준 환경)

후보권장
32B Q4_K_M✅ 메인 추천
32B Q5_K_M
32B Q6_K
70B Q4△ (체험용)

96GB+

70B Q4~Q5도 본격 실용 영역입니다.


4.6 30초 메모리 점검 체크리스트

모델 받기 직전에 매번 머릿속으로 한 번씩 돌리세요.

  1. 이 모델 몇 B인가?
  2. 어떤 양자화인가? (Q4? Q5?)
  3. B × 비트 / 8 으로 가중치 크기 계산
  4. 거기에 × 1.3 + 6GB 해서 실사용 메모리 어림
  5. 내 맥 통합 메모리에서 빼면 여유가 얼마인가?
  6. 여유가 10GB 미만 이면 컨텍스트를 줄이거나 양자화를 한 단계 내림

이 장에서 기억할 한 가지

모델 메모리 = 파라미터 × 비트 / 8 + 여유

한 숫자를 16비트로 저장하면 무겁고, 4비트로 압축하면 메모리는 1/4이 됩니다.

다음 장의 양자화가 바로 이 압축 기술입니다.


손으로 해볼 것

1. 내 맥에서 한 번에 모델 1개 올릴 수 있는 최대 크기 계산

activity monitor(활성 상태 보기) 앱을 열어 메모리 → 사용 중인 메모리 를 확인하세요.

가용 메모리 = 통합 메모리 - 사용 중인 메모리 - 안전 마진 4GB

이게 모델에 쓸 수 있는 대략적인 한계입니다.

가용 메모리를 × 1 로 보면 가중치 한도가 나옵니다.

2. 모델 후보 3개 골라보기

Hugging Face에서 아무 양자화 모델을 골라 파일 크기를 확인해보세요.

예를 들어:

  • Qwen3-7B-Instruct-Q4_K_M.gguf
  • Qwen3-14B-Instruct-Q4_K_M.gguf
  • Qwen3-32B-Instruct-Q4_K_M.gguf

내 맥에 들어갈 후보를 3개 적어두세요. 17장(Ollama)에서 실제로 받습니다.


다음 장에서는 Q4, Q5, Q8 같은 양자화의 정체어떤 양자화를 받아야 하는가 를 봅니다.

이걸 알면 모델 파일 이름이 모두 읽힙니다.