14장. Dense vs MoE
이 장의 목표
Qwen3-30B-A3B,Mixtral-8x7B같은 표기를 만나도 메모리와 속도가 어떻게 다른지 한 번에 그림이 그려지게 됩니다.
14.1 두 가지 구조
LLM의 내부 구조는 크게 두 가지로 나뉩니다.
[Dense] [MoE (Mixture of Experts)]
모델 전체가 "전문가" 여러 개로 쪼개짐
한 덩어리 매번 일부만 깨어남
이름은 어렵게 들리지만 핵심은 하나입니다.
매 토큰을 만들 때 모델 안의 “얼마만큼“이 일하는가.
14.2 Dense 모델 — 전부 다 일한다
지금까지 우리가 본 모델 대부분은 Dense 입니다.
[Dense 32B]
한 토큰을 만들 때마다
32B 가중치를 거의 다 사용
장점:
- 구조가 단순
- 예측 가능
- 만들기 쉬움
단점:
- 큰 모델일수록 무거움
- 매 토큰마다 모든 가중치를 메모리에서 읽어야 함
대표 예:
Qwen3-32B
Llama-3.3-70B
Gemma-3-27B
14.3 MoE 모델 — “전문가“만 깨어난다
MoE는 모델 안에 여러 명의 전문가 가 있고, 질문에 따라 일부 전문가만 일을 합니다.
[MoE 30B-A3B]
총 30B 안에 "전문가" 128명
한 토큰을 만들 때마다 그중 8명만 깨어남
실제 계산 = 약 3B 분량
비유:
회사 전 직원이 출근은 했지만, 한 번에 일하는 건 8명뿐.
자료실(메모리) 자리는 모두가 차지하지만, 점심값(계산 비용)은 8명만 든다.
14.4 MoE의 진짜 의미
자주 오해하는 부분.
오해 — “MoE는 작은 모델처럼 가볍다”
틀렸습니다.
매 토큰마다 깨어나는 건 일부지만, 전체 전문가 가중치는 메모리에 항상 올라와 있어야 합니다.
30B-A3B 모델
가중치 크기 → 30B (전부 메모리에 있어야 함)
계산량 → 3B 수준만
즉:
- 메모리 사용량 → 30B 만큼
- 속도 → 3B 만큼 빠름
14.5 그럼 MoE는 왜 좋은가?
장점:
- 속도가 빠르다 (같은 메모리에서 더 큰 모델의 지식 활용)
- 성능 대비 효율적
- 대규모 사용처(서버)에서 유리
단점:
- 메모리 절약은 안 됨
- 학습이 까다로움
- 같은 양자화여도 결과가 Dense보다 들쭉날쭉할 때 있음
로컬 환경에서는 다음과 같이 봅니다.
- 32GB 맥 → Dense 8B Q5 vs MoE 30B-A3B Q4 메모리 비슷, 속도는 MoE가 더 빠를 수 있음
- 단, 32GB에 30B MoE는 빡빡할 수 있어 주의
14.6 MoE 표기 해독
Qwen3-30B-A3B
└──┘ └─┘ └─┘
시리즈 총 활성
30B 3B
| 표기 | 의미 |
|---|---|
| 30B | 총 파라미터 (메모리 기준) |
| A3B | Active 3B, 매 토큰 실제 계산되는 양 |
다른 표기 방식:
Mixtral-8x7B-Instruct
└────┘ └───┘
시리즈 8명 × 7B 짜리 전문가
이 모델은 전문가 8명, 각 7B.
- 총 가중치 ≈ 47B (공유 부분 있어 8 × 7B 보다 적음)
- 활성 = 2명 × 7B ≈ 13B 계산량
14.7 같은 메모리 — Dense vs MoE 비교
64GB 맥에서 Q4 양자화 기준, 대략적인 비교.
| 모델 | 메모리 | 속도 (대략) | 품질 |
|---|---|---|---|
| Dense 32B Q4 | 약 16GB | 약 18 tok/s | 안정적 |
| MoE 30B-A3B Q4 | 약 16GB | 약 35 tok/s | 비슷하거나 약간 다름 |
| Dense 70B Q4 | 약 35GB | 약 8 tok/s | 더 똑똑함 |
| MoE 70B-A22B Q4 | 약 35GB | 약 18 tok/s | 70B에 가까움 |
MoE의 마법: 메모리는 큰 모델만큼 먹지만 속도는 작은 모델급.
단, 한국어처럼 학습량이 적은 언어는 MoE에서 가끔 답이 들쭉날쭉할 수 있어 같은 시리즈의 Dense와 한 번 비교해보는 게 안전.
14.8 어떨 때 MoE를 받나?
MoE가 좋은 상황
- 속도가 중요
- 메모리는 여유
- 영어·중국어 작업이 메인
- 같은 메모리에서 더 많은 지식 원함
Dense가 좋은 상황
- 메모리가 빠듯
- 답변 안정성 우선
- 한국어 비중이 크고 모델이 작은 경우
- 다중 모달·특수 분야 모델 (대부분 Dense)
14.9 대표 MoE 모델들
2025~2026 기준 자주 보는 MoE.
| 모델 | 총/활성 | 한 줄 평 |
|---|---|---|
| Mixtral-8x7B | 47B / 13B | MoE 대중화의 시작 |
| Mixtral-8x22B | 141B / 39B | 큰 메모리 필요 |
| Qwen3-30B-A3B | 30B / 3B | 32GB 맥에서 좋은 선택 |
| Qwen3-235B-A22B | 235B / 22B | 서버급, 맥에선 무리 |
| DeepSeek-V3 | 671B / 37B | 거대 MoE, 일반 맥엔 불가 |
| Llama-4 (예정) | MoE 채택 | 차세대 트렌드 |
14.10 64GB 맥에서 MoE를 어떻게 선택하나
추천 시나리오.
| 상황 | 추천 |
|---|---|
| 빠른 응답이 우선 | Qwen3-30B-A3B Q4 |
| 품질이 우선 | Qwen3-32B Dense Q4/Q5 |
| 코딩 | Qwen2.5-Coder-32B Dense |
| 한국어 메인 | Dense 32B 권장 |
| 영어 메인, 속도 우선 | MoE 30B-A3B |
이 장에서 기억할 한 가지
Dense: 모델 전체가 매번 일함 — 무겁고 안정적. MoE: 일부 전문가만 깨어남 — 빠르지만 메모리는 그대로.
MoE 표기 핵심:
총-A활성— 메모리는 총, 속도는 활성.
손으로 해볼 것
1. MoE 모델 페이지 직접 비교
다음 두 모델의 페이지를 띄워놓고 파일 크기·컨텍스트·벤치마크 점수를 비교해보세요.
Qwen3-32B-Instruct(Dense)Qwen3-30B-A3B-Instruct(MoE)
2. 동일 메모리 시뮬레이션
내 맥 메모리에서 위 두 모델을 Q4로 돌린다고 가정하고 다음을 어림셈 해보세요.
- 메모리 사용 (4장 식)
- 속도 (7장 식 + MoE는 활성 파라미터로 계산)
이런 감각이 잡히면 다음 부에서 실제로 받을 때 “왜 이게 더 빠를까?” 가 미리 보입니다.
여기서 2부가 끝납니다.
여기까지 잘 따라왔다면 이제 Hugging Face의 거의 모든 모델 페이지를 처음 보는 모델이라도 해독할 수 있습니다.
다음 부에서는 드디어 내 맥에서 모델을 직접 돌립니다. 3부 시작은 터미널 기본기부터입니다.