2026년 3월 기준, AI 프로젝트 배포 플랫폼은 크게 3가지 유형으로 나뉩니다: 서버리스형(Vercel, Cloudflare Workers), 항시실행형 PaaS(Railway, Render, Fly.io), AI 특화형(Modal, Replicate, Hugging Face Spaces). 각 유형별 실제 가격·제약·적합한 프로젝트를 정리했습니다.

처음엔 Vercel에 올렸어요.
AI 챗봇 만들었고, Next.js로 프론트엔드 구성했고, API는 서버리스 함수로 처리했으니까요. 배포 자동화도 됐고, 무료 플랜도 됐고, 도메인도 알아서 연결해줬어요.
“이거면 됐다” 했는데.
첫 번째 문제가 생겼습니다.
AI API 호출이 오래 걸리는 거예요. GPT-4o 응답 받고, 가공하고, 반환하는데 10초 넘기기 시작했어요. Vercel 서버리스 함수 기본 타임아웃이 10초거든요. Pro 플랜 올리면 300초까지 되는데… 그건 월 $20 플랜이고요.
두 번째 문제가 생겼어요.
AI 에이전트에 크론잡 붙이고 싶었는데, Vercel은 항시 실행 프로세스가 안 됩니다. 서버리스 구조라서요. 요청이 들어올 때만 깨어나고, 끝나면 다시 잠들어요.
“항상 돌아가는 봇”은 Vercel에서 불가능합니다.
근데 말이죠. 이걸 미리 알았으면 얼마나 좋았을까요.
플랫폼마다 가능한 게 다르고, 안 되는 게 다르고, 비용 구조도 다릅니다. 오늘 이걸 정리해볼게요.
먼저 이것부터 — 내 AI 프로젝트가 어떤 유형인가
플랫폼 고르기 전에 내 프로젝트가 뭔지 먼저 파악해야 합니다.
질문 3개만 답해보세요.
1. 항상 켜져 있어야 하나요?
- 예: 트레이딩 봇, 슬랙 봇, 텔레그램 봇, 크론잡, 웹소켓 서버
- 아니오: 유저가 버튼 누를 때만 응답하는 챗봇, API 엔드포인트
2. GPU가 필요한가요?
- 예: 자체 LLM 호스팅, 이미지 생성, 음성 인식, 파인튜닝
- 아니오: OpenAI/Anthropic API 호출만 하면 됨
3. 데이터가 유지되어야 하나요?
- 예: 유저 대화 이력, 에이전트 상태, 로그 파일
- 아니오: 무상태(stateless) 처리만
이 3가지 답에 따라 플랫폼이 갈립니다. 지금부터 유형별로 설명할게요.
유형 1: 서버리스형 — Vercel, Cloudflare Workers
Vercel
Vercel이란? Next.js를 만든 회사의 프론트엔드 특화 배포 플랫폼입니다. GitHub 연결만 하면 자동 배포, 글로벌 CDN, HTTPS가 즉시 제공됩니다. 2026년 3월 기준 무료(Hobby), Pro $20/월, Enterprise 문의.
장점이 뭐냐고요?
설정이 0에 가깝습니다.
git push 하면 자동으로 배포되고, 풀 리퀘스트마다 미리보기 URL 생성해주고, 글로벌 CDN으로 전세계 어디서 열어도 빠릅니다.
Next.js 기반 AI 웹앱이라면 최적의 선택입니다.
| 항목 | Hobby (무료) | Pro ($20/월) |
|---|---|---|
| 서버리스 함수 실행시간 | 10초 | 300초 |
| 대역폭 | 100GB | 1TB |
| 빌드시간 | 100시간/월 | 400시간/월 |
| AI SDK 지원 | ✅ | ✅ |
근데 진짜 한계가 있어요.
- 항시 실행 프로세스 → ❌ 불가능
- WebSocket 장기 연결 → ❌ 어려움
- 자체 LLM 호스팅 → ❌ 불가능
- 10초 넘는 AI 응답 → 무료 플랜 불가
AI API 호출 응답이 빠른 간단한 챗봇이라면 Vercel 무료로 충분합니다. 크론잡이나 에이전트 루프가 필요하다면 처음부터 다른 플랫폼으로 가야 합니다.
Cloudflare Workers AI
Cloudflare Workers AI란? Cloudflare의 엣지 네트워크(310+ PoP)에서 실행되는 서버리스 AI 추론 플랫폼입니다. 50개 이상의 오픈소스 AI 모델을 서버리스로 실행할 수 있습니다. 2026년 3월 기준 무료 플랜 포함, $5/10M 요청.
이건 Vercel이랑 결이 다릅니다.
Cloudflare Workers AI는 “AI 모델을 엣지에서 직접 실행”이 핵심이에요.
OpenAI API 호출하는 게 아니라, Cloudflare 서버에서 Llama, Mistral, Stable Diffusion 같은 모델을 직접 돌리는 거예요. 그것도 전세계 310개 이상의 엣지 노드에서요.
실제로 어떨 때 쓰는가:
// Cloudflare Workers에서 Llama 3 직접 실행
const response = await env.AI.run('@cf/meta/llama-3-8b-instruct', {
messages: [{ role: 'user', content: prompt }]
})
API 키 관리 없이 AI 기능을 엣지에서 처리할 수 있습니다.
한계:
- 커스텀 파인튜닝 모델 → 지원 제한
- 항시 실행 → Durable Objects 필요 (복잡해짐)
- 모델 선택지가 대형 플랫폼보다 적음
콜드 스타트 1ms 미만, 전세계 레이턴시 최소화가 필요한 AI 기능이라면 Cloudflare Workers AI가 답입니다.
유형 2: 항시실행 PaaS — Railway, Render, Fly.io
이 유형이 AI 에이전트, 봇, 백엔드 API에 가장 맞습니다.
“항상 켜져 있는 서버”가 필요한 모든 프로젝트는 여기서 골라야 합니다.
Railway
Railway란? GitHub 연결 후 3분 만에 배포 가능한 PaaS입니다. PostgreSQL, Redis, MySQL 내장 지원. 2026년 3월 기준 Hobby 플랜 $5/월 (크레딧 $5 포함, 사용량 초과 시 추가 청구).
Railway가 인기 있는 이유는 간단해요.
배포가 가장 쉽습니다.
railway up 명령어 하나, 또는 GitHub 연결 후 자동 배포. 환경변수도 대시보드에서 설정. DB도 클릭 몇 번으로 붙임.
Python FastAPI, Node.js Express, Go Gin 뭘로 만들었든 Dockerfile이 있으면 됩니다.
| 항목 | Hobby ($5/월) |
|---|---|
| RAM | 48GB (공유) |
| vCPU | 48코어 (공유) |
| Volume 스토리지 | 5GB |
| 항시 실행 | ✅ |
| WebSocket | ✅ |
| 레이턴시 제어 | ❌ (AWS us-west 고정) |
Volume 5GB가 중요해요. 에이전트 상태 파일, 로그, SQLite DB 등을 여기 저장하면 배포 재시작 후에도 유지됩니다.
주의할 점:
사용량 기반 과금이라 트래픽 많으면 $5 초과할 수 있습니다. 크론잡이나 봇처럼 24시간 CPU 사용하는 앱은 월 몇 달러 더 나올 수 있어요.
레이턴시가 중요한 트레이딩 봇이라면 Railway는 AWS us-west 고정이라 한국에서 레이턴시가 높습니다.
Render
Render란? “zero downtime”을 내세우는 풀스택 PaaS입니다. 무료 플랜은 750시간/월 (인스턴스 1개 항시 실행 가능), 유료는 $7/월/서비스. 예측 가능한 고정 가격이 특징.
Render는 가격 예측성이 장점입니다.
Railway는 사용량 기반이라 청구서가 달라질 수 있는데, Render는 서비스당 고정 가격이에요.
무료 플랜도 750시간/월 — 한 달 기준 약 31일이니 인스턴스 1개는 항상 켜져 있을 수 있습니다.
단, 무료 플랜의 함정:
무료 인스턴스는 15분 동안 요청이 없으면 슬립(Sleep) 상태로 들어갑니다. 다음 요청 올 때 콜드 스타트로 50초까지 걸릴 수 있어요.
챗봇처럼 간헐적으로 요청 받는 앱이라면 괜찮지만, 트레이딩 봇처럼 항상 깨어있어야 하는 앱은 유료로 가야 합니다.
| 항목 | 무료 | $7/월 |
|---|---|---|
| 슬립 | 있음 (15분) | 없음 |
| 항시 실행 | 조건부 | ✅ |
| Persistent Disk | ❌ | ✅ |
| 글로벌 리전 | ❌ | ❌ |
Fly.io
Fly.io란? 35개+ 글로벌 리전에서 경량 VM을 실행하는 플랫폼입니다. 도쿄, 싱가포르 리전 포함. GPU(A10, A100, L40S) 지원. 2026년 3월 기준 기본 $5 + 사용량.
Fly.io는 레이턴시가 중요할 때 답입니다.
한국에서 사용하는 서비스라면, 도쿄 리전에 배포해서 50ms 이내 레이턴시 확보가 가능해요. Railway나 Render는 미국 고정이라 이게 불가능합니다.
트레이딩 봇, 리얼타임 AI 응답, 글로벌 유저 서비스라면 Fly.io가 경쟁력 있습니다.
GPU까지 됩니다:
Fly.io에서 A10G GPU를 시간당 과금으로 쓸 수 있어요. 자체 LLM 호스팅이나 이미지 생성 서버 올릴 때 씁니다.
단점:
Docker 이해가 필요합니다. Railway/Render에 비해 설정이 좀 더 복잡해요. fly.toml 파일 작성, 볼륨 마운트, 리전 선택 등을 직접 해야 합니다.
| 항목 | 내용 |
|---|---|
| 기본 비용 | $5 + 사용량 |
| 아시아 리전 | ✅ (도쿄, 싱가포르) |
| GPU | ✅ (A10, A100, L40S) |
| WebSocket | ✅ |
| 난이도 | 중~상 |
유형 3: AI 특화형 — Modal, Replicate, Hugging Face Spaces
이 유형은 GPU가 필요한 AI 작업 전용입니다.
자체 LLM을 호스팅하거나, 파인튜닝하거나, 이미지·음성 모델을 돌리는 거예요.
Modal Labs
Modal란? Python SDK 기반의 서버리스 GPU 플랫폼입니다. 코드에 데코레이터 붙이면 자동으로 GPU 인스턴스에서 실행됩니다. 2026년 3월 기준 Starter 크레딧 무료, GPU 사용량 기반 과금.
Modal는 개발자 경험이 독특합니다.
import modal
app = modal.App("my-ai-app")
@app.function(gpu="A10G")
def run_inference(prompt: str):
from transformers import pipeline
model = pipeline("text-generation", model="meta-llama/Llama-3-8B")
return model(prompt)
이게 전부예요. 이 코드 modal run 하면 자동으로 A10G GPU 인스턴스 생성, 패키지 설치, 실행, 종료까지 알아서 합니다.
Docker 파일? 없어도 됩니다. GPU 서버 관리? 그것도 없어도 됩니다.
콜드 스타트가 2~4초 수준이라 Replicate(5초+)보다 빠릅니다.
파인튜닝, 배치 처리, ML 파이프라인에 최적입니다.
언제 쓰냐:
- 자체 모델 파인튜닝
- 이미지/음성/비디오 생성 파이프라인
- 주기적 ML 배치 작업
Replicate
Replicate란? API 호출 한 번으로 수천 개의 오픈소스 AI 모델을 바로 사용할 수 있는 플랫폼입니다. Stable Diffusion, Llama, Whisper 등 인기 모델이 모두 있습니다. 사용량 기반 과금.
Replicate는 모델 갖다 쓰는 게 목적입니다.
파인튜닝? 필요 없어요. 그냥 갖다 씁니다.
import replicate
output = replicate.run(
"meta/llama-3-8b-instruct",
input={"prompt": "안녕하세요, 뭘 도와드릴까요?"}
)
이게 전부예요. API 키 하나로 수천 개 모델에 접근합니다.
단점:
- 콜드 스타트 평균 5.1초 (Modal의 2배)
- 커스텀 모델 올리면 빌드 시간 1분 44초
- 많이 쓰면 단가가 높아짐
자체 모델 굳이 파인튜닝 필요 없이, 기존 오픈소스 모델 API로 빠르게 프로토타입 만들 때 씁니다.
Hugging Face Spaces
Hugging Face Spaces란? AI 모델 데모를 무료로 호스팅하고 공유할 수 있는 플랫폼입니다. Gradio, Streamlit 앱 지원. 무료 플랜 CPU만, 유료 T4/A10G 추가 가능.
HF Spaces는 공유와 데모 목적입니다.
ML 연구자나 오픈소스 모델 배포할 때 씁니다. “내 모델 써보세요”를 무료로 공개할 때요.
프로덕션 서비스엔 맞지 않아요. 무료 플랜은 CPU만이고, 콜드 스타트가 8.2초, 핫 리스타트도 14초입니다.
공개 데모 or 커뮤니티 공유 목적이라면 가장 빠른 선택입니다.
유형 4: 나만의 VPS — Oracle Free + Coolify
아무도 잘 안 얘기하는데, 이게 진짜 가성비입니다.
Oracle Cloud Always Free
Oracle Cloud Always Free란? Oracle Cloud의 영구 무료 티어로, ARM 기반 VM 4코어 24GB RAM 200GB 스토리지를 무제한으로 제공합니다. 아웃바운드 대역폭도 무제한.
ARM 4코어 24GB RAM.
이게 영구 무료입니다.
신청 경쟁이 있어서 리전에 따라 대기가 있을 수 있지만, 성공하면 Railway·Render 월 비용이 0원이 됩니다.
트레이딩 봇, AI 에이전트 크론잡, FastAPI 서버 전부 한 서버에서 돌릴 수 있어요.
리전은 도쿄 또는 싱가포르 선택하면 한국에서 30~80ms 레이턴시 확보 가능.
Coolify (VPS 위에 올리는 셀프호스팅 PaaS)
VPS 있으면 Coolify 올리세요.
Coolify는 Vercel, Railway 같은 PaaS 기능을 내 서버에 셀프호스팅하는 오픈소스 도구입니다.
curl -fsSL https://cdn.coollabs.io/coolify/install.sh | bash
이 명령 하나로 설치 완료. 그 다음엔 GitHub 연결하면 git push → 자동 배포, SSL 자동 갱신, DB 내장, 모니터링까지 됩니다.
Railway $5/월 내던 게 서버비만 내면 됩니다.
결국 어떻게 고를까 — 상황별 선택 트리
내 AI 프로젝트가... 항상 켜져 있어야 한다 ├── 비용 최우선 → Oracle Free + Coolify (0원) ├── 빠른 시작 → Railway ($5/월) ├── 레이턴시 중요 → Fly.io 도쿄 리전 └── 심플하게 → Render $7/월 가끔 요청 받는 챗봇/API다 ├── Next.js 기반 → Vercel 무료 ├── 엣지 AI 필요 → Cloudflare Workers AI └── Python FastAPI → Railway (무료 크레딧 소진 후 $5) GPU가 필요하다 ├── 기존 모델 갖다 쓰기 → Replicate ├── 자체 파인튜닝/ML 파이프라인 → Modal Labs ├── 오픈소스 모델 데모 공유 → HF Spaces └── 항시 GPU 서버 → Fly.io (A10G)
플랫폼 전체 비교표
| 플랫폼 | 비용 | 항시실행 | GPU | 아시아 리전 | AI 적합도 | 난이도 |
|---|---|---|---|---|---|---|
| Vercel | 무료~$20 | ❌ | ❌ | ✅ CDN | ⭐⭐⭐ (프론트) | 최하 |
| Cloudflare Workers | 무료~사용량 | ❌ | ❌ | ✅ 엣지 | ⭐⭐⭐⭐ (엣지 AI) | 중 |
| Railway | $5/월+ | ✅ | 대기중 | ❌ | ⭐⭐⭐⭐ | 하 |
| Render | 무료~$7 | 조건부 | 제한 | ❌ | ⭐⭐⭐ | 하 |
| Fly.io | $5+사용량 | ✅ | ✅ | ✅ 도쿄 | ⭐⭐⭐⭐⭐ | 중 |
| Modal | 무료 크레딧+ | ✅ | ✅ | ❌ | ⭐⭐⭐⭐⭐ (ML) | 중 |
| Replicate | 사용량 | ✅ | ✅ | ❌ | ⭐⭐⭐⭐ (모델 API) | 하 |
| HF Spaces | 무료~유료 | 조건부 | 제한 | ❌ | ⭐⭐⭐ (데모) | 하 |
| Oracle Free+Coolify | 0원 | ✅ | ❌ | ✅ 도쿄 | ⭐⭐⭐⭐⭐ | 중 |
내가 배운 것 — 처음부터 알았으면 좋았을 것들
Vercel에서 3주 쓰다가 결국 다른 곳으로 옮긴 경험을 정리하면 이렇습니다.
첫 번째: AI 프로젝트는 “항상 켜져 있어야 하나?”를 먼저 물어보세요. 이 질문 하나로 서버리스형은 탈락합니다.
두 번째: 배포 편의성이랑 운영 편의성은 다릅니다. Vercel이 배포는 가장 쉬운데, AI 에이전트 운영에는 적합하지 않아요.
세 번째: GPU가 필요한 시점이 생각보다 빠릅니다. OpenAI API 의존하다가 비용 폭탄 맞으면 그때서야 자체 호스팅 고민하게 됩니다. 미리 Modal이나 Fly.io GPU 옵션을 알아두는 게 낫습니다.
네 번째: Oracle Cloud Always Free는 진지하게 신청해볼 만합니다. 4코어 24GB가 무료인데 이걸 안 쓸 이유가 없어요.
FAQ
Q: Vercel로 Claude API 기반 챗봇 만들 수 있나요?
A: 가능합니다. Vercel AI SDK가 Claude API를 공식 지원합니다. 단, 응답 스트리밍 처리를 하면 타임아웃 문제가 줄어듭니다. 무료 플랜에서 10초 초과 응답이 생기면 edge runtime으로 전환하거나 스트리밍을 적용하세요.
Q: 트레이딩 봇은 어디가 제일 낫나요?
A: Oracle Cloud Always Free(도쿄 리전) + Coolify 조합이 비용 0원에 가장 합리적입니다. 빠른 시작이 필요하면 Railway Hobby $5/월도 좋습니다. Binance 기준 레이턴시는 도쿄 리전이 가장 낮습니다.
Q: 자체 Llama 모델 돌리고 싶은데 어디서요?
A: Modal Labs가 가장 개발자 경험이 좋습니다. Python 데코레이터 하나면 GPU 인스턴스에서 실행됩니다. 기존 모델 API로 충분하면 Replicate가 설정 없이 바로 씁니다.
Q: HuggingFace Spaces 무료로 AI 앱 배포할 수 있나요?
A: 가능합니다. CPU 기반 앱은 무료. 단, 슬립 모드가 있고 콜드 스타트가 느립니다. 연구 데모나 포트폴리오 공유 목적이면 충분합니다.
Q: Railway와 Render 중 뭐가 낫나요?
A: Railway는 더 유연하고 빠른 배포, Render는 더 예측 가능한 가격이 장점입니다. 개인 프로젝트라면 Railway, 팀 서비스라면 Render가 운영이 편합니다.
2026년 기준 추천 조합
개인 AI 사이드 프로젝트:
- 프론트: Vercel 무료
- 백엔드/에이전트: Railway $5/월
진지한 AI 앱 (비용 최적화):
- Oracle Free VM (도쿄) + Coolify
- 블로그/랜딩: Vercel 무료
ML 엔지니어 (GPU 필요):
- 파인튜닝/배치: Modal Labs
- 서빙 API: Fly.io 도쿄 GPU
레이턴시 민감 서비스 (트레이딩/리얼타임):
- Fly.io 도쿄 리전 또는 Oracle Free 도쿄
플랫폼은 도구입니다.
어떤 게 최고인가보다 내 프로젝트에 뭐가 맞는가가 먼저예요.
항상 켜져야 하는지, GPU 필요한지, 레이턴시 얼마나 중요한지.
이 3가지만 정하면 플랫폼은 자동으로 좁혀집니다.
처음에 잘못 골라서 나중에 마이그레이션하는 것보다, 처음 30분 고민하는 게 훨씬 낫습니다.
저는 그걸 3주 만에 배웠습니다.