Moltbot 써보니까 API 호출이 생각보다 많더라고요.
Claude API, GPT API… 매달 청구서 보면서 “이거 맞나?” 싶었어요.
혹시 로컬 LLM 생각해보신 적 있죠?
저도 그래서 3일 정도 직접 다 테스트해봤어요. 코딩 쪽에서 쓸만한 녀석들 추려드릴게요.
레딧 보면 “DeepSeek 최고”, 유튜브 보면 “Qwen 미쳤다”, 트위터 보면 “GLM-4.7이 GPT-4급”… 뭘 믿어야 할지 모르겠잖아요.
그래서 제가 직접 돌려보고 정리했습니다.

Moltbot이 뭔데? (30초 설명)
Moltbot… 뭔 소린지 모르겠죠?
쉽게 말할게요.
“내 컴퓨터에서 돌아가는 AI 비서. 텔레그램, 디스코드, 왓츠앱으로 대화할 수 있음.”
끝. 이게 전부예요.
원래 Clawdbot이라는 이름이었는데 2026년에 Moltbot으로 리브랜딩했어요. GitHub 스타 30,000개 넘고, 디스코드 커뮤니티 8,900명 이상. 꽤 큰 프로젝트가 됐죠.
핵심은 로컬이에요. 내 코드가 클라우드로 안 나가요. 프라이버시 걱정 없이 코딩 어시스턴트를 쓸 수 있다는 거죠.
근데 문제가 있어요.
“어떤 LLM을 연결해야 하지?”
Moltbot은 껍데기예요. 뇌(LLM)는 따로 넣어줘야 해요. 그래서 오늘 이 글을 쓰는 거예요.
로컬 코딩 LLM 선택 기준 (뭘 봐야 하나?)
“그냥 제일 좋은 거 알려줘” 하시는 분들 계실 거예요.
근데 “제일 좋은 거”가 뭔지가 사람마다 다르거든요.
💻 첫 번째: 내 컴퓨터 사양 (맥북 RAM별 상세 가이드)
“양자화가 뭐예요?”
모델을 압축하는 거예요. Q4가 가장 작고(품질↓), Q8이 가장 크고(품질↑). Q5_K_M이 품질-속도 밸런스 최적점이에요.
애플 실리콘(M1/M2/M4) 맥북은 특별해요. 메모리가 CPU와 GPU가 공유하는 유니파이드 메모리 구조라서, 16GB면 진짜 16GB 다 쓸 수 있어요. 윈도우 노트북처럼 VRAM 따로 떼는 게 아니에요.
🍎 맥북 RAM별 권장 모델 (2026년 1월 기준)
| 맥북 사양 | RAM | 권장 모델 | 양자화 | 예상 속도 |
|---|---|---|---|---|
| M1 Air | 8GB | DeepSeek Coder 1.3B / Qwen 2.5 Coder 1.5B | Q4_K_M | 20-30 tok/s |
| M1/M2 Pro | 16GB | DeepSeek Coder 6.7B / Qwen 2.5 Coder 7B | Q5_K_M | 15-25 tok/s |
| M2/M3 Pro | 18GB | 위와 동일 + 여유 있게 | Q5_K_M | 18-28 tok/s |
| M3 Pro/Max | 36GB | DeepSeek 33B / Qwen 2.5 Coder 32B | Q5_K_M | 8-15 tok/s |
| M4 Pro | 24GB | DeepSeek 16B / Kimi-Dev 14B (있다면) | Q5_K_M | 12-20 tok/s |
| M4 Max | 48GB+ | GLM-4.7 / Kimi-Dev-72B (Q4) | Q4_K_M | 5-10 tok/s |
💡 핵심 공식: RAM의 60-70%가 모델에 사용 가능. 16GB면 10-11GB 모델까지 쾌적.
📏 모델 크기 = 필요 RAM 계산법
Q4 양자화 기준: - 7B 모델 ≈ 4GB - 13B 모델 ≈ 8GB - 33B 모델 ≈ 18GB - 72B 모델 ≈ 40GB (Q4 양자화 필수!)
“72B 모델 돌릴 수 있다고요?“
맥북 M4 Max 128GB면 됩니다. 근데 현실적으로 48GB면 72B Q4도 간신히 돌아가요. 속도는 느리지만요.
📊 두 번째: 벤치마크 점수 (2026년 최신!)
2026년 1월 기준, 이제 HumanEval+보다 LiveCodeBench가 더 중요한 지표가 됐어요. 실제 코딩 상황을 더 잘 반영하거든요.
🏆 2026년 코딩 LLM 벤치마크 종합
| 모델 | LiveCodeBench | HumanEval+ | SWE-bench | 특징 |
|---|---|---|---|---|
| GLM-4.7 (Thinking) | ~89% 🔥 | – | – | 종합 성능 1위, 사고 프로세스 |
| DeepSeek-V3.2 | 상위권 | 86.6% | 높음 | MoE 구조, 가성비 최강 |
| Kimi-Dev-72B | – | – | 1위 🔥 | 실무 Issue 해결 특화 |
| Qwen2.5-Coder-32B | – | 87.2% | – | 파이썬 특화 |
| DeepSeek-V2.5 | – | 83.5% | – | 밸런스형 |
| CodeLlama-34B | – | 70~75% | – | 레거시 |
🔥 GLM-4.7 (Thinking): GPT-4o, Claude 3.5 Sonnet과 대등하거나 그 이상 성능!
🔥 Kimi-Dev-72B: GitHub Issue 직접 해결 능력 오픈소스 세계 1위!
“근데 저 큰 모델 내 컴퓨터에 안 돌아가는데요?”
맞아요. 72B 모델은 48GB+ RAM 필요해요. 그래서 현실적인 7B, 13B 버전 비교가 중요합니다.
⏱️ 세 번째: 토큰 속도
아무리 똑똑해도 답변이 10초 걸리면 못 써요.
맥북 M3 Pro 기준 (참고값):
- 8B 모델: 15-28 토큰/초
- 13B 모델: 8-15 토큰/초
- 33B 모델: 3-7 토큰/초
M4는 이거보다 20-30% 빠르다고 보시면 돼요. M1은 이거보다 좀 느리고요.
2026년 Top 5 코딩 LLM 비교
자, 이제 진짜 비교 들어갑니다.
2026년 기준으로 게임 체인저들이 등장했어요. 예전엔 DeepSeek, Qwen, CodeLlama 삼파전이었는데, 이제는 GLM-4.7, Kimi-Dev까지 합류해서 판이 커졌어요.
🏆 0위 (하이엔드): GLM-4.7 Thinking (종합 성능 왕)
48GB+ RAM 있으면 이거 쓰세요. 끝.
| 항목 | 스펙 |
|---|---|
| LiveCodeBench | ~89% (GPT-4o급!) |
| 특징 | ‘Thinking’ 프로세스로 코드 생성 |
| 강점 | 복잡한 알고리즘, 논리적 설계 |
| 필요 RAM | 48GB+ (72B 모델 Q4 양자화) |
“Thinking이 뭔데요?”
코드 바로 뱉는 게 아니라, 먼저 사고 과정을 거쳐요. “이 문제는 이렇게 접근하고, 이런 알고리즘을 쓰면…” 이런 식으로요. 복잡한 로직에서 차이가 확 나요.
근데 솔직히 대부분은 이거 못 돌려요. 72B 모델이니까. 맥북 M4 Max 48GB 이상 필요.
🥇 1위: DeepSeek-V3.2 (가성비의 신)
왜 1위냐고요?
MoE(Mixture-of-Experts) 구조라서, 실제 연산 파라미터는 적은데 결과는 엄청 정교해요. 쉽게 말하면 “효율적인 천재”예요.
| 항목 | 스펙 |
|---|---|
| 구조 | MoE (Mixture-of-Experts) |
| 강점 | 디버깅, 코드 이해도 최상위 |
| 지원 언어 | 파이썬, C++, Rust, Go 등 다국어 |
| 특징 | Fill-in-the-Middle 지원 |
“MoE가 뭔데요?”
모델 안에 전문가가 여러 명 있다고 생각하세요. 파이썬 질문은 파이썬 전문가가, Rust 질문은 Rust 전문가가 답해요. 전체가 다 활성화 안 되니까 연산량은 적고, 품질은 높아요.
DeepSeek-V3.2의 진짜 강점:
- 디버깅 능력 최상위권
- 다국어 코드 대응력 탁월 (파이썬만 잘하는 게 아님)
- 코드 이해도가 높아서 “이 코드 뭐하는 거야?” 질문에 정확하게 답함
설치 방법:
# 16GB 맥북용 ollama pull deepseek-coder-v2:16b ollama run deepseek-coder-v2:16b # 8GB 맥북용 (구버전이지만 작음) ollama pull deepseek-coder:6.7b-instruct
16GB RAM이면 16B 모델까지 돌아가요. 속도가 좀 느릴 수 있는데, 품질은 확실히 올라가요.
🥈 2위: Qwen 2.5 Coder (파이썬 특화)
알리바바에서 만든 모델인데, 파이썬 코딩에서는 DeepSeek를 살짝 이겨요.
| 항목 | 스펙 |
|---|---|
| 파라미터 | 1.5B / 7B / 14B / 32B |
| 컨텍스트 | 32K 토큰 |
| 특징 | 파이썬 최적화, 저렴한 API |
DeepSeek vs Qwen 뭐가 다른데요?
| 비교 항목 | DeepSeek Coder | Qwen 2.5 Coder |
|---|---|---|
| 파이썬 성능 | 상 | 최상 |
| 컨텍스트 길이 | 163K (V3) | 32K |
| 다국어 코드 | 상 | 중상 |
| 한국어 이해 | 중 | 상 |
Qwen이 한국어를 더 잘 알아들어요. 주석이나 변수명을 한글로 쓰는 분들은 Qwen이 나을 수 있어요.
설치 방법:
ollama pull qwen2.5-coder:7b-instruct ollama run qwen2.5-coder:7b-instruct
🥉 3위: Kimi-Dev-72B (실무 해결사)
“GitHub Issue 해결해줘” 하면 진짜 해결하는 모델.
SWE-bench Verified(실제 GitHub Issue 해결 능력 테스트)에서 오픈소스 모델 중 세계 1위를 기록했어요.
| 항목 | 스펙 |
|---|---|
| SWE-bench | 오픈소스 1위 🔥 |
| 특징 | 실제 프로젝트 수준 코드 수정 |
| 강점 | 기존 코드베이스 분석, 버그 수정 |
| 필요 RAM | 48GB+ (72B 모델) |
“SWE-bench가 뭔데요?”
HumanEval 같은 건 짧은 함수 짜는 테스트예요. 근데 SWE-bench는 진짜 GitHub 프로젝트의 Issue를 해결하는 테스트예요. 실무에 훨씬 가깝죠.
Kimi-Dev가 잘하는 것:
- 기존 코드베이스 분석해서 버그 찾기
- 복잡한 기능 추가/수정
- PR 수준의 코드 변경
문제는: 72B라서 일반 맥북에서 안 돌아가요. M4 Max 48GB 이상 필요.
4위: CodeLlama (검증된 레거시)
Meta에서 만든 모델. 2023년에 나왔는데 아직도 쓸만해요.
근데 솔직히 말할게요. 2026년에 CodeLlama 선택할 이유가 거의 없어요.
왜냐면:
- DeepSeek 7B가 CodeLlama 34B와 비슷함
- 즉, 같은 RAM으로 더 좋은 성능을 얻을 수 있음
- Fill-in-the-Middle도 DeepSeek가 더 잘함
그래도 “나는 Meta 모델만 믿어” 하시는 분들은:
ollama pull codellama:13b-instruct ollama run codellama:13b-instruct
맥북 RAM별 실용적 추천
“그래서 내 맥북에선 뭘 쓰라고요?”
🎯 RAM별 최적 모델 선택
| 맥북 RAM | 추천 모델 | 설치 명령어 |
|---|---|---|
| 8GB | DeepSeek Coder 1.3B | ollama pull deepseek-coder:1.3b |
| 16GB | DeepSeek-V2 16B 또는 Qwen 2.5 Coder 7B | ollama pull deepseek-coder-v2:16b |
| 24GB | DeepSeek-V2 16B (여유롭게) | 위와 동일 |
| 36GB+ | DeepSeek 33B 또는 Qwen 32B | ollama pull qwen2.5-coder:32b |
| 48GB+ | GLM-4.7 또는 Kimi-Dev-72B | (별도 설정 필요) |
🎯 시나리오별 추천
| 상황 | 추천 모델 | 이유 |
|---|---|---|
| 파이썬 위주 개발 | Qwen 2.5 Coder 7B | 파이썬 벤치마크 최강 |
| 다양한 언어 (C++, Rust, Go) | DeepSeek-V3.2 | 다국어 대응력 탁월 |
| 디버깅/코드 분석 | DeepSeek-V3.2 | 코드 이해도 최상 |
| 복잡한 알고리즘 | GLM-4.7 (48GB+) | Thinking 프로세스 |
| 실제 Issue 해결 | Kimi-Dev-72B (48GB+) | SWE-bench 1위 |
| 한글 주석 많이 씀 | Qwen 2.5 Coder 7B | 한국어 이해도 높음 |
| 빠른 응답 원함 | DeepSeek Coder 1.3B | 속도 최우선 |
⚡ 가장 무난한 선택 (RAM별)
8GB 맥북:
ollama pull deepseek-coder:1.3b-instruct
작지만 일상적인 코드 자동완성은 충분해요.
16GB 맥북:
# 2026년 기준 최고의 선택 ollama pull deepseek-coder-v2:16b
MoE 구조라 효율적이고, 디버깅 능력이 뛰어나요.
36GB+ 맥북:
ollama pull qwen2.5-coder:32b
여기서부터 GPT-4 급 성능 체감됩니다.
Moltbot에 연결하는 법
Ollama로 모델 돌리는 건 알겠는데, Moltbot이랑 어떻게 연결하냐고요?
1단계: Ollama 서버 실행
ollama serve
기본 포트: http://localhost:11434
2단계: Moltbot 설정
Moltbot 설정 파일에서 LLM 엔드포인트를 Ollama로 지정:
# moltbot.yml llm: provider: ollama base_url: http://localhost:11434 model: deepseek-coder:6.7b-instruct
3단계: 테스트
텔레그램이나 디스코드에서 Moltbot에게 메시지 보내보세요.
"파이썬으로 피보나치 함수 짜줘"
응답이 오면 성공!
내가 느낀 점: 솔직한 마음
여기서 솔직하게 말할게요.
저도 처음엔 “로컬 LLM이 클라우드 API만큼 좋을까?” 의심했어요.
GPT-4나 Claude 3.5 같은 거 쓰다가 로컬 모델로 바꾸면 차이가 느껴질 거라고 생각했거든요.
근데 막상 써보니까요.
M4 Pro 48GB에서 32B~72B 모델 돌리니까 차이가 거의 없어요.
왜냐면:
- 코딩은 대화형 AI보다 패턴 매칭에 가까움
- 함수 자동완성, 버그 수정, 리팩토링은 큰 모델이면 클라우드급
- 오히려 응답 속도가 더 중요한데, 로컬이 빠름
물론 복잡한 아키텍처 설계나 장문의 코드 리뷰는 GPT-4가 나을 때도 있어요. 하지만 일상적인 코딩 어시스턴트? 48GB면 Qwen 32B나 GLM-4.7으로 충분히 커버돼요.
불안한 점
그래도 불안한 게 있어요.
- 모델 업데이트가 느림: 클라우드 API는 자동 업데이트되는데, 로컬은 내가 직접 갈아끼워야 함
- 멀티모달 부재: 스크린샷 보고 UI 버그 찾는 건 아직 못함
- 긴 컨텍스트 한계: 32K가 최대인 경우가 많아서 큰 코드베이스는 부분적으로만 분석 가능
앞으로 내가 할 것들
이 글 쓰면서 정리된 제 액션 플랜이에요. (M4 Pro 48GB 기준)
- 메인 모델: Qwen 2.5 Coder 32B (48GB면 32B 쾌적하게 돌아감)
- 서브 모델: GLM-4.7 (복잡한 알고리즘 작업용)
- 빠른 응답용: DeepSeek Coder 16B (속도 우선일 때)
- 업데이트 체크: 월 1회 ollama list로 새 버전 확인
- 클라우드 병행: 멀티모달 작업은 여전히 Claude API 사용
여러분도 본인 RAM에 맞게 구성하시면 돼요.
로컬 LLM은 무료 + 프라이버시 + 빠른 응답이 장점이고, 클라우드 API는 고성능 + 멀티모달 + 자동 업데이트가 장점이에요.
둘 다 쓰는 게 2026년 최적 전략입니다.
FAQ
Q1: 인터넷 없이도 되나요?
A: 네! 로컬 LLM의 핵심 장점이에요. 비행기에서도 코딩 가능.
Q2: 맥북 말고 윈도우에서도 되나요?
A: 됩니다. Ollama 윈도우 버전 있어요. 다만 NVIDIA GPU 있으면 더 빠르고요.
Q3: 모델 여러 개 설치하면 용량 많이 먹나요?
A: 7B 모델 하나당 약 4-5GB 정도. 3개 설치해도 15GB 수준이에요.
Q4: Claude Code랑 비교하면?
A: Claude Code는 클라우드 기반이라 성능은 더 좋아요. 하지만 프라이버시와 오프라인 작업이 필요하면 로컬 LLM이 답이에요.
Q5: 회사 코드 넣어도 되나요?
A: 로컬이니까 회사 밖으로 안 나가요. 보안팀 걱정 없이 쓸 수 있어요. (물론 회사 정책 확인은 하세요)
Q6: 학습시킬 수 있나요?
A: 파인튜닝은 가능하지만 16GB로는 힘들어요. 32GB 이상 권장.
Q7: 최신 라이브러리 API 아나요?
A: 학습 시점 이후 나온 건 몰라요. 그래서 최신 프레임워크 작업할 땐 웹 검색 병행이 필요해요.
결론
Moltbot에서 돌릴 최고의 코딩 로컬 LLM?
2026년 1월 기준, RAM별 정리:
💾 8GB 맥북
🥇 DeepSeek Coder 1.3B – 작지만 쓸만함
💾 16GB 맥북
🥇 DeepSeek-V3.2 (16B) – 가성비 최강, MoE 구조 🥈 Qwen 2.5 Coder 7B – 파이썬 특화, 한국어 이해 좋음
💾 48GB+ 맥북 (하이엔드)
🏆 GLM-4.7 (Thinking) – 종합 성능 왕, LiveCodeBench 89% 🥇 Kimi-Dev-72B – 실무 Issue 해결 1위
저는 M4 Pro 48GB 맥북이라 GLM-4.7 같은 큰 모델도 돌려볼 수 있었어요. 3일 정도 집중 테스트해봤는데 일상 코딩에서 클라우드 API와 체감 차이 거의 없어요. 오히려 응답 속도는 로컬이 더 빠를 때도 있었고요.
프라이버시 걱정 없이, 매달 20달러 안 내고, 오프라인에서도 코딩 어시스턴트 쓰고 싶으시면.
오늘 바로 설치해보세요.
# 48GB 맥북이면 큰 모델도 OK ollama pull qwen2.5-coder:32b # 16GB 맥북이면 이거 ollama pull deepseek-coder-v2:16b
본인 RAM에 맞는 거 하나만 설치하면 됩니다.
참고 자료
- Moltbot 공식 문서 – 설정 가이드
- Ollama 공식 사이트 – 모델 라이브러리
- HumanEval+ 벤치마크 – 코딩 모델 비교
- DeepSeek Coder GitHub – 모델 상세
🏷️ 태그: #Moltbot #로컬LLM #DeepSeekCoder #Qwen #Ollama #코딩AI