DORA의 플랫폼 엔지니어링 역량 페이지는 2025년 기준 조직의 90%가 내부 개발자 플랫폼을 쓰고, 76%가 전담 플랫폼 팀을 두고 있다고 설명한다. 같은 자료는 플랫폼 품질이 높을수록 AI 도구 도입 효과가 조직 성과로 이어질 가능성이 커진다고 본다.
이 숫자가 조용히 무섭다. 예전에는 플랫폼 엔지니어링을 “큰 회사가 Kubernetes 잘 굴리려고 만드는 팀” 정도로 봐도 됐다. 그런데 2026년에는 AI 코딩 도구, 내부 자동화, 에이전트 workflow까지 들어오면서 이야기가 달라졌다.
개발자가 코드를 더 빨리 쓰는 것만으로는 조직이 빨라지지 않는다. 배포 파이프라인이 제각각이고, 테스트 기준이 흔들리고, 서비스 소유자가 안 보이고, 운영 문의가 Slack DM으로 흩어져 있으면 AI는 생산성을 올리는 게 아니라 혼란을 더 빠르게 복사한다.
이번 글은 플랫폼 엔지니어링을 멋진 용어로 소개하는 글이 아니다. DevOps와 뭐가 다른지, 언제 내부 개발자 플랫폼을 고민해야 하는지, 작은 팀에서는 어디까지가 적당한지 판단하는 글이다.
먼저 답을 잡으면
플랫폼 엔지니어링은 DevOps 이름 바꾸기가 아니다. 한 줄로 줄이면 “개발자를 내부 고객으로 보고, 배포·운영·보안·메타데이터·지원 체계를 제품처럼 제공하는 일”에 가깝다.
DevOps가 “개발자가 자신이 만든 것을 운영까지 책임진다”는 방향을 열었다면, 플랫폼 엔지니어링은 그 책임을 감당할 수 있는 좋은 도구와 기본 경로를 만들어준다. 그냥 “운영도 네가 해”라고 말하면 책임 전가가 되고, “이 경로로 만들면 보안·배포·관측성 기본값이 깔린다”까지 제공하면 플랫폼이 된다.
예를 들어 새 서비스를 만들 때마다 팀이 직접 VPC, IAM, CI, 모니터링, 알림, 배포 전략을 다시 고른다고 해보자. 처음에는 자유로워 보인다. 1년 뒤에는 거의 같은 문제를 스무 팀이 조금씩 다르게 틀리는 풍경이 된다. 이게 원문에서 말한 over-general swamp, 선택지가 너무 많아서 생기는 늪이다.
좋은 내부 플랫폼은 모든 선택지를 없애지 않는다. 대신 좋은 기본값을 만든다. 개발자는 작은 선언 파일, CLI 명령, 템플릿, 포털, API를 통해 안전한 기본 경로를 쓰고, 정말 다른 길이 필요할 때만 예외를 요청한다.
DevOps와 어디서 갈리나
DevOps와 플랫폼 엔지니어링은 적이 아니다. 플랫폼 엔지니어링은 DevOps가 너무 넓게 퍼졌을 때 생기는 반복 작업과 인지 부하를 줄이는 다음 단계에 가깝다.
DevOps가 잘못 굴러가면 이런 말이 나온다. “개발팀이 운영도 알아야지.” 말은 맞는데, 각 팀이 Kubernetes, IAM, 네트워크, 보안 정책, 비용 알림, 배포 rollback까지 다 깊게 알아야 한다면 제품 개발 속도는 당연히 느려진다.
플랫폼 엔지니어링은 여기서 질문을 바꾼다. 개발자가 모든 내부 구조를 알아야 할까. 아니면 조직이 안전하게 검증한 경로를 제품처럼 제공해서, 개발자가 사용자 가치에 더 집중하게 만들 수 있을까.
자료 기준으로 핵심은 도구가 아니라 제품 접근이다. Backstage를 깔았다고 플랫폼이 생기는 게 아니고, Kubernetes 클러스터를 중앙팀이 갖고 있다고 플랫폼 팀이 되는 것도 아니다. 내부 개발자가 실제로 덜 헤매고, 더 안전하게 배포하고, 실패했을 때 무엇을 고쳐야 하는지 알 수 있어야 한다.
언제 플랫폼 팀이 필요한가
플랫폼 팀을 너무 빨리 만들면 티켓 큐가 된다. 엔지니어 10명 규모에서 “플랫폼 조직”부터 만들면 대개 한두 명이 모든 요청을 받아내는 병목이 된다. 이때 필요한 건 거창한 팀보다 공통 스크립트, 합의된 템플릿, 간단한 문서일 가능성이 높다.
반대로 엔지니어가 50명 안팎으로 늘고, 여러 배포 대상이 생기고, 새 서비스를 올리는 정답이 팀마다 달라지기 시작하면 플랫폼 논의가 현실 문제가 된다. 특히 “어느 팀은 이렇게 배포하고, 어느 팀은 저렇게 알림을 받고, 보안 예외는 누가 승인하는지 모르는 상태”라면 이미 늪 가장자리다.
판단 기준은 조직도보다 반복 증상이다. 같은 Terraform 모듈이 여러 팀에서 재발명되고 있는가. 서비스 소유자를 찾는 데 시간이 걸리는가. 배포 실패 시 로그와 조치가 명확하지 않은가. 신규 입사자가 첫 배포까지 너무 오래 걸리는가. 이 네 가지가 반복되면 플랫폼의 재료가 쌓인 것이다.
작은 팀이라면 “플랫폼 팀”이라는 이름을 붙이기 전에 하나만 먼저 제품화하면 된다. 예를 들어 새 서비스 생성 CLI, 표준 GitHub Actions 템플릿, 공통 알림 규칙, 서비스 카탈로그 중 하나다. 플랫폼은 선언으로 시작하는 게 아니라 반복되는 배관 작업 하나를 없애는 데서 시작한다.
내부 개발자 플랫폼의 다섯 재료
첫 번째는 큐레이션이다. 플랫폼은 모든 것을 지원하겠다고 말하면 망한다. 지원하는 데이터베이스, 메시지 큐, 배포 방식, 런타임을 의도적으로 정하고, 예외가 필요한 팀에는 우회로와 책임 범위를 알려줘야 한다.
예를 들어 어떤 팀이 Kafka를 쓰고 싶다고 했을 때 “문서 링크 여기요”로 끝내면 플랫폼이 아니다. 우리 조직은 Pub/Sub를 기본으로 지원하고, Kafka는 어떤 조건에서 예외로 허용하며, 운영 책임은 어디까지인지 설명할 수 있어야 한다. 거절도 제품 기능이다. 달콤하진 않지만 치아 건강엔 좋다.
두 번째는 소프트웨어 추상화다. 위키만 있는 플랫폼은 플랫폼이 아니라 친절한 게시판에 가깝다. 개발자가 API, CLI, SDK, 선언형 스펙으로 프로덕션급 리소스를 만들 수 있어야 한다. 문서는 필요하지만, 문서만 보고 사람이 매번 수작업을 해야 한다면 반복 문제는 그대로 남는다.
세 번째는 메타데이터 레지스트리다. 어떤 서비스가 존재하는지, 누가 소유하는지, 어떤 시스템에 의존하는지, 실제 어디서 실행 중인지 한눈에 보여야 한다. Backstage, Port, Cortex 같은 도구를 쓰든 자체 카탈로그를 만들든, 단일 진실 원천이 없으면 AI 에이전트도 사람도 엉뚱한 맥락 위에서 일한다.
네 번째는 중간값 개발자다. 플랫폼 팀은 가장 시끄러운 파워 유저만 보고 만들면 안 된다. 대부분의 개발자가 자주 하는 평범한 일을 빠르고 안전하게 만드는 것이 먼저다. 엘리트 사용자만 만족시키면 나머지 팀은 플랫폼을 우회하고, 그렇게 섀도우 플랫폼이 자란다.
다섯 번째는 운영 품질이다. 플랫폼이 회사의 바닥이라면 SLO, 온콜, 지원 티어, 변경 관리가 필요하다. 플랫폼이 죽으면 그 위의 서비스가 같이 흔들린다. 그래서 “도구 만들었으니 쓰세요”가 아니라 “이 도구가 실패했을 때 누가, 언제, 어떤 기준으로 대응하는가”까지 제품 범위에 들어간다.
AI 시대에는 왜 더 중요해졌나
DORA의 2026년 AI 관련 글은 2025년 보고서를 바탕으로, 기술 전문가의 90%가 업무에서 AI를 쓰고 80% 이상이 생산성 증가를 느낀다고 설명한다. 동시에 AI는 단순한 직선형 개선이 아니라, 코드 작성 속도와 함께 검증 부담·불안정성·기술 부채도 키울 수 있다고 본다.
이 지점에서 플랫폼이 중요해진다. AI가 코드를 빨리 만들면 PR 수와 변경량이 늘어난다. 그런데 테스트, 보안 리뷰, 배포, 서비스 소유권, 운영 로그가 정리되어 있지 않으면 빨라진 것은 개발 완료가 아니라 검토해야 할 덩어리의 생산 속도다.
내부 플랫폼은 AI의 출력을 조직의 안전한 경로로 흘려보내는 배수로 역할을 한다. 표준 테스트가 있고, 배포 경로가 있고, 권한 경계가 있고, 서비스 카탈로그가 있고, 실패 피드백이 명확하면 AI가 만든 변화도 사람이 검증 가능한 흐름에 들어온다.
반대로 바닥이 약하면 AI는 기술 부채 공장장이 된다. 개발자는 빠르게 만들고, 리뷰어는 더 많은 코드를 읽고, 운영자는 더 많은 예외를 처리한다. 모델은 빨라졌는데 조직은 더 피곤해지는 기묘한 그림이 나온다. 기계가 열심히 뛰는데 사람이 뒤에서 걸레질만 하는 구조다.
작은 팀은 어디서 시작하면 좋나
작은 팀은 내부 개발자 플랫폼이라는 이름부터 붙일 필요가 없다. 먼저 “반복되는 배관 작업”을 하나 고르는 편이 낫다.
예를 들어 새 프로젝트를 만들 때마다 README, 배포 설정, 시크릿 규칙, 로그 설정, 테스트 명령을 다시 만들고 있다면 템플릿부터 만들 수 있다. 이 템플릿이 세 번 이상 재사용되면 CLI나 generator로 내릴 수 있다.
이 볼트의 운영 구조에 대입하면 .claude/agents, .claude/skills, no-focus Obsidian 규칙, 하네스 정의가 작은 내부 플랫폼의 재료다. 사용자는 “요약해줘”, “글쓰자”, “텐베거 고고”처럼 자연어로 요청하지만, 내부에서는 스킬 문서, 실행 스크립트, 상태 파일, 리포트 경로가 역할을 나눠 갖는다.
여기서 중요한 건 AI에게 모든 규칙을 한 번에 읽히는 게 아니다. 항상 지켜야 할 규칙은 공통 운영 문서에 두고, 반복 업무는 스킬로 빼고, 반드시 실행해야 할 검증은 스크립트나 preflight로 내린다. 작은 플랫폼은 거창한 포털보다 이런 경계에서 시작한다.
실패 패턴 5가지
첫 번째 실패는 포털부터 만드는 것이다. 내부 포털은 멋있지만, 그 뒤에 API와 운영 경로가 없으면 검색 가능한 위키에 가깝다. 개발자는 버튼을 누르고 싶지, 버튼 설명서를 읽고 수작업을 하고 싶진 않다.
두 번째 실패는 지원 범위를 정하지 않는 것이다. 모든 팀의 모든 예외를 받아주면 플랫폼은 금방 잡탕이 된다. 무엇을 기본 지원하고, 무엇은 예외이며, 무엇은 팀이 직접 책임져야 하는지 선을 그어야 한다.
세 번째 실패는 SLO 없이 운영하는 것이다. 플랫폼은 내부 도구가 아니라 바닥이다. 바닥이 꺼졌는데 “우리는 도구팀이라 온콜은 없습니다”라고 말하면 신뢰가 순식간에 사라진다.
네 번째 실패는 마이그레이션 비용을 과소평가하는 것이다. 기존 배포 시스템을 새 플랫폼으로 옮기는 일은 보통 예상보다 오래 걸린다. 원문도 v2를 새로 만드는 본능보다 기존 플랫폼 안에서 리아키텍처하고, 호환성을 유지하며 천천히 옮기는 방식을 강조한다.
다섯 번째 실패는 AI를 플랫폼 위에 올리는 게 아니라 플랫폼 대신 쓰는 것이다. “AI가 알아서 해줄 거야”는 운영 전략이 아니다. AI가 무엇을 읽고, 어떤 권한으로 실행하고, 실패하면 어디에 기록하고, 사람이 무엇을 승인할지 정해야 한다.
실무 체크리스트
플랫폼 엔지니어링을 검토한다면 먼저 아래 질문을 보면 된다.
| 질문 | 위험 신호 | 먼저 할 일 |
|---|---|---|
| 새 서비스를 올리는 표준 경로가 있나 | 팀마다 배포 방식이 다름 | 템플릿 또는 CLI 하나 만들기 |
| 서비스 소유자와 의존 관계가 보이나 | 장애 때 담당자를 Slack에서 수색 | 서비스 카탈로그 만들기 |
| 실패 피드백이 명확한가 | CI 실패 후 다음 행동을 모름 | 로그, 에러 메시지, runbook 정리 |
| 지원 범위가 정해져 있나 | 모든 요청이 플랫폼팀 DM으로 옴 | P0/P1/P3 지원 티어 분리 |
| AI 생성 코드가 안전한 경로를 타나 | PR만 늘고 리뷰 부담 증가 | 테스트·보안·배포 preflight 강화 |
이 표에서 3개 이상 빨간불이면 도구 하나 더 붙일 때가 아니라 바닥을 정리할 때다. 반대로 아직 빨간불이 1개라면 팀부터 만들 필요는 없다. 작은 자동화 하나로 충분할 수 있다.
마무리
플랫폼 엔지니어링은 “개발자에게 친절한 인프라” 정도로 줄이면 조금 부족하다. 더 정확히는 개발자가 좋은 선택을 기본값으로 쓰게 만드는 내부 제품 운영이다.
2026년에 이 주제가 더 중요해진 이유는 AI 때문이다. AI는 코드를 빨리 만들고, 문서를 빨리 쓰고, 반복 작업을 빨리 밀어준다. 하지만 조직의 배포, 검증, 권한, 메타데이터, 지원 체계가 약하면 그 빠름은 성과가 아니라 혼란으로 바뀐다.
그래서 플랫폼 엔지니어링의 첫 질문은 “무슨 도구를 깔까”가 아니다. 우리 팀에서 반복 재발명되는 작업은 무엇이고, 개발자가 덜 외워도 안전하게 갈 수 있는 기본 경로는 무엇인가다.
작게 시작하자. 새 서비스 템플릿 하나, 공통 배포 경로 하나, 서비스 카탈로그 하나, 실패했을 때 다음 행동을 알려주는 에러 메시지 하나면 된다. 좋은 플랫폼은 처음부터 거대한 도시가 아니라, 사람들이 자꾸 밟아도 무너지지 않는 길 하나에서 시작한다.
FAQ
Q. 플랫폼 엔지니어링은 DevOps를 대체하나?
대체라기보다 보완에 가깝다. DevOps가 개발팀의 운영 책임을 강조했다면, 플랫폼 엔지니어링은 그 책임을 감당할 수 있는 표준 도구와 안전한 기본 경로를 제공한다.
Q. Backstage를 설치하면 내부 개발자 플랫폼이 되나?
아니다. Backstage는 서비스 카탈로그와 개발자 포털을 만드는 데 도움을 주는 도구일 수 있지만, 지원 범위, API, 배포 경로, SLO, 운영 책임이 없으면 플랫폼이 아니라 포털만 생긴다.
Q. 작은 스타트업도 플랫폼 팀이 필요할까?
대부분은 팀부터 만들 필요가 없다. 반복되는 배포·설정·문서·권한 작업을 하나씩 템플릿이나 스크립트로 줄이는 것부터 시작하면 된다.
Q. AI 코딩 도구와 무슨 관계가 있나?
AI는 코드 작성 속도를 올릴 수 있지만, 테스트·리뷰·배포·운영 경로가 약하면 검증 부담과 불안정성도 함께 늘어난다. 내부 플랫폼은 AI가 만든 변경을 안전한 경로로 통과시키는 기반이다.
출처
- GeekNews – 플랫폼 엔지니어링의 모든 것
- Platform Engineering End-to-End – Luca Cavallin
- DORA – Platform engineering capability
- DORA – Balancing AI tensions