Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

42장. 자주 하는 오해 정리

이 장의 목표 로컬 AI를 처음 만지는 사람이 가장 많이 빠지는 13가지 오해 를 한 번에 정리합니다.

책 마지막 점검 노트.


오해 ① “64GB 맥이면 64GB 모델까지 돌릴 수 있겠지”

아닙니다.

가중치만 메모리에 들어가는 게 아니라 KV Cache · 런타임 · macOS · 다른 앱 메모리까지 필요.

64GB 맥에서 안전한 모델 메모리 한도:

실제 가용 ≈ 64GB - macOS·앱 - 안전 마진
       ≈ 약 45~50GB

(4장·36장 참고)


오해 ② “Q4면 25% 성능만 나오는 거 아냐?”

아닙니다.

비트가 1/4 줄었다고 능력이 1/4이 되는 게 아닙니다.

Q4_K_M은 FP16 대비 체감 품질 90% 이상 유지 (5장).


오해 ③ “70B는 32B보다 무조건 좋다”

상황에 따라.

좋은 32B Instruct가 오래된 70B를 일상 업무에서 이길 수 있습니다 (3장·40장).

64GB 맥에서는 32B Q4가 표준.


오해 ④ “Context를 128K로 잡으면 항상 좋다”

아닙니다.

긴 context는:

  • KV Cache 메모리 폭주 (6장)
  • prefill 시간 증가
  • 중간 정보 누락 (lost in the middle)

일반 업무는 16K~32K 가 답.


오해 ⑤ “로컬 AI니까 보안상 무조건 안전”

부분적으로만 맞습니다.

데이터 외부 유출은 막지만:

  • Agent에 임의 권한 → 내부 파일 위험 (29장)
  • Uncensored 모델 사용 → 컴플라이언스 위험 (34장)
  • Prompt injection으로 의도치 않은 명령 실행

사내 도입 시 가드·로그·감사 필수.


오해 ⑥ “오픈소스 모델이니 마음대로 써도 됨”

아닙니다.

라이선스를 따져야 합니다. 특히:

  • CC-BY-NC → 회사 사용 불가
  • Llama → 표기 의무 + 월 7억 MAU 초과 시 별도 계약
  • Gemma → Prohibited Use Policy

(12장)


오해 ⑦ “벤치마크 1등이면 내 업무도 잘함”

아닙니다.

  • Data contamination
  • Overfitting to benchmark
  • 평가 방식 차이

내 업무 30~50문항이 가장 정확 (13장·40장).


오해 ⑧ “MoE는 작은 모델이라서 가볍다”

메모리는 큰 모델만큼 듭니다.

활성 파라미터만 적을 뿐 (14장).

Qwen3-30B-A3B  →  메모리 30B 만큼, 속도 3B 수준

오해 ⑨ “Ollama·LM Studio·llama.cpp가 같은 층이다”

아닙니다.

엔진:    llama.cpp / MLX
매니저:  Ollama / mlx-lm
GUI:     LM Studio

비교할 때 같은 층끼리만 (20장).


오해 ⑩ “파인튜닝하면 모델이 똑똑해진다”

작업이 늘어나지 새 지식이 늘진 않습니다.

새 사실을 외우게 하려면 RAG가 답. 파인튜닝은 새 작업·톤·형식 학습에 적합 (32장).


오해 ⑪ “Uncensored 모델이 더 솔직하다”

위험한 신뢰입니다.

안전 회로가 제거되면:

  • 위험 정보 그대로
  • 환각 더 자주
  • 사내 컴플라이언스 위반

회사 도입은 거의 항상 ❌.


오해 ⑫ “Reasoning 모델은 모든 면에서 더 똑똑하다”

일반 대화는 오히려 답답합니다.

생각 과정을 길게 적기 때문에:

  • 응답 늦음
  • 토큰 많이 씀
  • 간단한 질문에 과한 설명

수학·복잡 추론에만 진가 (9장).


오해 ⑬ “MLX가 GGUF보다 항상 빠르다”

대체로 빠르지만 항상은 아닙니다.

  • 갓 나온 모델은 GGUF 먼저 풀림
  • 일부 모델은 MLX 구현이 미완
  • 양자화 종류에 따라 역전 가능

같은 모델 두 버전 받아 직접 비교가 답 (19장).


한 장 정리

오해정답
64GB 맥 → 64GB 모델실제 가용 ≈ 50GB
Q4 → 품질 25%Q4_K_M ≈ FP16 90%+
70B > 32B 항상케이스별. 32B Q4가 64GB 맥 표준
128K 항상 좋다16~32K 권장
로컬 = 안전Agent·가드 없이는 안전 아님
오픈소스 = 자유라이선스 따져야
벤치 1등 = 내 업무 1등자체 셋 필수
MoE = 가벼움메모리는 그대로
Ollama·LM Studio·llama.cpp 동급층이 다름
파인튜닝 = 똑똑RAG가 새 지식엔 더 적합
Uncensored = 솔직위험 + 컴플라이언스
Reasoning = 만능간단 대화엔 과함
MLX 항상 빠름케이스별, 직접 비교

이 장에서 기억할 한 가지

로컬 AI의 7할은 “균형 잡기“입니다.

메모리 vs 속도, 품질 vs 시간, 자유 vs 안전, 학습 vs RAG.

한쪽 극단에 휘둘리지 않고 내 상황에 맞춰 손잡이를 돌릴 줄 알면 그게 전부입니다.


손으로 해볼 것

본인이 책 읽는 동안 했던 잘못된 가정 을 3개만 떠올려서 적어보세요.

1. ___
2. ___
3. ___

다음 사람에게 책을 추천할 때 “이거 이거 처음에 헷갈렸어” 같은 가이드가 됩니다.


다음 장에서는 모델 선택 의사결정 트리 를 한 장으로 정리합니다.