14장. Dense vs MoE

이 장의 목표 Qwen3-30B-A3B, Mixtral-8x7B 같은 표기를 만나도 메모리와 속도가 어떻게 다른지 한 번에 그림이 그려지게 됩니다.

14.1 두 가지 구조

LLM의 내부 구조는 크게 두 가지로 나뉩니다.

[Dense]                     [MoE (Mixture of Experts)]
모델 전체가                   "전문가" 여러 개로 쪼개짐
한 덩어리                     매번 일부만 깨어남

이름은 어렵게 들리지만 핵심은 하나입니다.

매 토큰을 만들 때 모델 안의 “얼마만큼“이 일하는가.

14.2 Dense 모델 — 전부 다 일한다

지금까지 우리가 본 모델 대부분은 Dense 입니다.

[Dense 32B]
한 토큰을 만들 때마다
32B 가중치를 거의 다 사용

장점:

구조가 단순
예측 가능
만들기 쉬움

단점:

큰 모델일수록 무거움
매 토큰마다 모든 가중치를 메모리에서 읽어야 함

대표 예:

Qwen3-32B
Llama-3.3-70B
Gemma-3-27B

14.3 MoE 모델 — “전문가“만 깨어난다

MoE는 모델 안에 여러 명의 전문가 가 있고, 질문에 따라 일부 전문가만 일을 합니다.

[MoE 30B-A3B]
총 30B 안에 "전문가" 128명
한 토큰을 만들 때마다 그중 8명만 깨어남
실제 계산 = 약 3B 분량

비유:

회사 전 직원이 출근은 했지만, 한 번에 일하는 건 8명뿐.

자료실(메모리) 자리는 모두가 차지하지만, 점심값(계산 비용)은 8명만 든다.

14.4 MoE의 진짜 의미

자주 오해하는 부분.

오해 — “MoE는 작은 모델처럼 가볍다”

틀렸습니다.

매 토큰마다 깨어나는 건 일부지만, 전체 전문가 가중치는 메모리에 항상 올라와 있어야 합니다.

30B-A3B 모델
가중치 크기   → 30B (전부 메모리에 있어야 함)
계산량        → 3B 수준만

즉:

메모리 사용량 → 30B 만큼
속도 → 3B 만큼 빠름

14.5 그럼 MoE는 왜 좋은가?

장점:

속도가 빠르다 (같은 메모리에서 더 큰 모델의 지식 활용)
성능 대비 효율적
대규모 사용처(서버)에서 유리

단점:

메모리 절약은 안 됨
학습이 까다로움
같은 양자화여도 결과가 Dense보다 들쭉날쭉할 때 있음

로컬 환경에서는 다음과 같이 봅니다.

32GB 맥 → Dense 8B Q5 vs MoE 30B-A3B Q4 메모리 비슷, 속도는 MoE가 더 빠를 수 있음

단, 32GB에 30B MoE는 빡빡할 수 있어 주의

14.6 MoE 표기 해독

Qwen3-30B-A3B
└──┘ └─┘ └─┘
시리즈 총  활성
       30B 3B

표기	의미
30B	총 파라미터 (메모리 기준)
A3B	Active 3B, 매 토큰 실제 계산되는 양

다른 표기 방식:

Mixtral-8x7B-Instruct
└────┘ └───┘
시리즈  8명 × 7B 짜리 전문가

이 모델은 전문가 8명, 각 7B.

총 가중치 ≈ 47B (공유 부분 있어 8 × 7B 보다 적음)
활성 = 2명 × 7B ≈ 13B 계산량

14.7 같은 메모리 — Dense vs MoE 비교

64GB 맥에서 Q4 양자화 기준, 대략적인 비교.

모델	메모리	속도 (대략)	품질
Dense 32B Q4	약 16GB	약 18 tok/s	안정적
MoE 30B-A3B Q4	약 16GB	약 35 tok/s	비슷하거나 약간 다름
Dense 70B Q4	약 35GB	약 8 tok/s	더 똑똑함
MoE 70B-A22B Q4	약 35GB	약 18 tok/s	70B에 가까움

MoE의 마법: 메모리는 큰 모델만큼 먹지만 속도는 작은 모델급.

단, 한국어처럼 학습량이 적은 언어는 MoE에서 가끔 답이 들쭉날쭉할 수 있어 같은 시리즈의 Dense와 한 번 비교해보는 게 안전.

14.8 어떨 때 MoE를 받나?

MoE가 좋은 상황

속도가 중요
메모리는 여유
영어·중국어 작업이 메인
같은 메모리에서 더 많은 지식 원함

Dense가 좋은 상황

메모리가 빠듯
답변 안정성 우선
한국어 비중이 크고 모델이 작은 경우
다중 모달·특수 분야 모델 (대부분 Dense)

14.9 대표 MoE 모델들

2025~2026 기준 자주 보는 MoE.

모델	총/활성	한 줄 평
Mixtral-8x7B	47B / 13B	MoE 대중화의 시작
Mixtral-8x22B	141B / 39B	큰 메모리 필요
Qwen3-30B-A3B	30B / 3B	32GB 맥에서 좋은 선택
Qwen3-235B-A22B	235B / 22B	서버급, 맥에선 무리
DeepSeek-V3	671B / 37B	거대 MoE, 일반 맥엔 불가
Llama-4 (예정)	MoE 채택	차세대 트렌드

14.10 64GB 맥에서 MoE를 어떻게 선택하나

상황	추천
빠른 응답이 우선	Qwen3-30B-A3B Q4
품질이 우선	Qwen3-32B Dense Q4/Q5
코딩	Qwen2.5-Coder-32B Dense
한국어 메인	Dense 32B 권장
영어 메인, 속도 우선	MoE 30B-A3B

이 장에서 기억할 한 가지

Dense: 모델 전체가 매번 일함 — 무겁고 안정적. MoE: 일부 전문가만 깨어남 — 빠르지만 메모리는 그대로.

MoE 표기 핵심: 총-A활성 — 메모리는 총, 속도는 활성.

손으로 해볼 것

1. MoE 모델 페이지 직접 비교

다음 두 모델의 페이지를 띄워놓고 파일 크기·컨텍스트·벤치마크 점수를 비교해보세요.

Qwen3-32B-Instruct (Dense)
Qwen3-30B-A3B-Instruct (MoE)

2. 동일 메모리 시뮬레이션

내 맥 메모리에서 위 두 모델을 Q4로 돌린다고 가정하고 다음을 어림셈 해보세요.

메모리 사용 (4장 식)
속도 (7장 식 + MoE는 활성 파라미터로 계산)

이런 감각이 잡히면 다음 부에서 실제로 받을 때 “왜 이게 더 빠를까?” 가 미리 보입니다.

여기서 2부가 끝납니다.

여기까지 잘 따라왔다면 이제 Hugging Face의 거의 모든 모델 페이지를 처음 보는 모델이라도 해독할 수 있습니다.

다음 부에서는 드디어 내 맥에서 모델을 직접 돌립니다. 3부 시작은 터미널 기본기부터입니다.

Keyboard shortcuts

맥에서 시작하는 로컬 AI