Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

14장. Dense vs MoE

이 장의 목표 Qwen3-30B-A3B, Mixtral-8x7B 같은 표기를 만나도 메모리와 속도가 어떻게 다른지 한 번에 그림이 그려지게 됩니다.


14.1 두 가지 구조

LLM의 내부 구조는 크게 두 가지로 나뉩니다.

[Dense]                     [MoE (Mixture of Experts)]
모델 전체가                   "전문가" 여러 개로 쪼개짐
한 덩어리                     매번 일부만 깨어남

이름은 어렵게 들리지만 핵심은 하나입니다.

매 토큰을 만들 때 모델 안의 “얼마만큼“이 일하는가.


14.2 Dense 모델 — 전부 다 일한다

지금까지 우리가 본 모델 대부분은 Dense 입니다.

[Dense 32B]
한 토큰을 만들 때마다
32B 가중치를 거의 다 사용

장점:

  • 구조가 단순
  • 예측 가능
  • 만들기 쉬움

단점:

  • 큰 모델일수록 무거움
  • 매 토큰마다 모든 가중치를 메모리에서 읽어야 함

대표 예:

Qwen3-32B
Llama-3.3-70B
Gemma-3-27B

14.3 MoE 모델 — “전문가“만 깨어난다

MoE는 모델 안에 여러 명의 전문가 가 있고, 질문에 따라 일부 전문가만 일을 합니다.

[MoE 30B-A3B]
총 30B 안에 "전문가" 128명
한 토큰을 만들 때마다 그중 8명만 깨어남
실제 계산 = 약 3B 분량

비유:

회사 전 직원이 출근은 했지만, 한 번에 일하는 건 8명뿐.

자료실(메모리) 자리는 모두가 차지하지만, 점심값(계산 비용)은 8명만 든다.


14.4 MoE의 진짜 의미

자주 오해하는 부분.

오해 — “MoE는 작은 모델처럼 가볍다”

틀렸습니다.

매 토큰마다 깨어나는 건 일부지만, 전체 전문가 가중치는 메모리에 항상 올라와 있어야 합니다.

30B-A3B 모델
가중치 크기   → 30B (전부 메모리에 있어야 함)
계산량        → 3B 수준만

즉:

  • 메모리 사용량 → 30B 만큼
  • 속도 → 3B 만큼 빠름

14.5 그럼 MoE는 왜 좋은가?

장점:

  • 속도가 빠르다 (같은 메모리에서 더 큰 모델의 지식 활용)
  • 성능 대비 효율적
  • 대규모 사용처(서버)에서 유리

단점:

  • 메모리 절약은 안 됨
  • 학습이 까다로움
  • 같은 양자화여도 결과가 Dense보다 들쭉날쭉할 때 있음

로컬 환경에서는 다음과 같이 봅니다.

  • 32GB 맥 → Dense 8B Q5 vs MoE 30B-A3B Q4 메모리 비슷, 속도는 MoE가 더 빠를 수 있음
  • 단, 32GB에 30B MoE는 빡빡할 수 있어 주의

14.6 MoE 표기 해독

Qwen3-30B-A3B
└──┘ └─┘ └─┘
시리즈 총  활성
       30B 3B
표기의미
30B총 파라미터 (메모리 기준)
A3BActive 3B, 매 토큰 실제 계산되는 양

다른 표기 방식:

Mixtral-8x7B-Instruct
└────┘ └───┘
시리즈  8명 × 7B 짜리 전문가

이 모델은 전문가 8명, 각 7B.

  • 총 가중치 ≈ 47B (공유 부분 있어 8 × 7B 보다 적음)
  • 활성 = 2명 × 7B ≈ 13B 계산량

14.7 같은 메모리 — Dense vs MoE 비교

64GB 맥에서 Q4 양자화 기준, 대략적인 비교.

모델메모리속도 (대략)품질
Dense 32B Q4약 16GB약 18 tok/s안정적
MoE 30B-A3B Q4약 16GB약 35 tok/s비슷하거나 약간 다름
Dense 70B Q4약 35GB약 8 tok/s더 똑똑함
MoE 70B-A22B Q4약 35GB약 18 tok/s70B에 가까움

MoE의 마법: 메모리는 큰 모델만큼 먹지만 속도는 작은 모델급.

단, 한국어처럼 학습량이 적은 언어는 MoE에서 가끔 답이 들쭉날쭉할 수 있어 같은 시리즈의 Dense와 한 번 비교해보는 게 안전.


14.8 어떨 때 MoE를 받나?

MoE가 좋은 상황

  • 속도가 중요
  • 메모리는 여유
  • 영어·중국어 작업이 메인
  • 같은 메모리에서 더 많은 지식 원함

Dense가 좋은 상황

  • 메모리가 빠듯
  • 답변 안정성 우선
  • 한국어 비중이 크고 모델이 작은 경우
  • 다중 모달·특수 분야 모델 (대부분 Dense)

14.9 대표 MoE 모델들

2025~2026 기준 자주 보는 MoE.

모델총/활성한 줄 평
Mixtral-8x7B47B / 13BMoE 대중화의 시작
Mixtral-8x22B141B / 39B큰 메모리 필요
Qwen3-30B-A3B30B / 3B32GB 맥에서 좋은 선택
Qwen3-235B-A22B235B / 22B서버급, 맥에선 무리
DeepSeek-V3671B / 37B거대 MoE, 일반 맥엔 불가
Llama-4 (예정)MoE 채택차세대 트렌드

14.10 64GB 맥에서 MoE를 어떻게 선택하나

추천 시나리오.

상황추천
빠른 응답이 우선Qwen3-30B-A3B Q4
품질이 우선Qwen3-32B Dense Q4/Q5
코딩Qwen2.5-Coder-32B Dense
한국어 메인Dense 32B 권장
영어 메인, 속도 우선MoE 30B-A3B

이 장에서 기억할 한 가지

Dense: 모델 전체가 매번 일함 — 무겁고 안정적. MoE: 일부 전문가만 깨어남 — 빠르지만 메모리는 그대로.

MoE 표기 핵심: 총-A활성 — 메모리는 총, 속도는 활성.


손으로 해볼 것

1. MoE 모델 페이지 직접 비교

다음 두 모델의 페이지를 띄워놓고 파일 크기·컨텍스트·벤치마크 점수를 비교해보세요.

  • Qwen3-32B-Instruct (Dense)
  • Qwen3-30B-A3B-Instruct (MoE)

2. 동일 메모리 시뮬레이션

내 맥 메모리에서 위 두 모델을 Q4로 돌린다고 가정하고 다음을 어림셈 해보세요.

  • 메모리 사용 (4장 식)
  • 속도 (7장 식 + MoE는 활성 파라미터로 계산)

이런 감각이 잡히면 다음 부에서 실제로 받을 때 “왜 이게 더 빠를까?” 가 미리 보입니다.


여기서 2부가 끝납니다.

여기까지 잘 따라왔다면 이제 Hugging Face의 거의 모든 모델 페이지를 처음 보는 모델이라도 해독할 수 있습니다.

다음 부에서는 드디어 내 맥에서 모델을 직접 돌립니다. 3부 시작은 터미널 기본기부터입니다.