에이전트 프레임워크 비교는 처음엔 이름표 싸움처럼 보인다. AgentScope, LangGraph, AutoGen 중 무엇이 더 유명한가를 보게 되는데, 실무에서는 질문이 다르다. 어느 프레임워크가 내가 만들 업무의 실패 지점을 가장 덜 숨기는가를 봐야 한다.
2026년 5월 10일 KST 기준, AgentScope는 ReAct agent, tools, skills, memory, MCP, A2A, observability, sandbox 쪽을 한 번에 묶어 빠르게 에이전트를 구성하는 방향에 가깝다. LangGraph는 장기 실행, 상태 저장, human-in-the-loop, durable execution을 중심에 둔 낮은 수준의 orchestration runtime에 가깝다. AutoGen은 multi-agent chat과 팀 패턴을 널리 알린 프로젝트지만, 공식 GitHub 기준으로는 maintenance mode에 들어갔고 신규 사용자는 Microsoft Agent Framework를 보라는 안내가 붙어 있다.
그래서 이 비교는 “어느 게 제일 유명하냐”가 아니다. 회사 업무나 실제 서비스에 붙이기 전, 어떤 실패를 피하고 싶은지에 따라 골라야 한다.
먼저 정할 답
도구 실행과 MCP, 메모리, 샌드박스, 관측성을 빠르게 붙여 실험하려면 AgentScope를 먼저 본다. 상태가 오래 살아야 하고, 중간에 사람이 끼어 승인하거나 수정해야 하며, 실패 후 이어 실행해야 한다면 LangGraph를 먼저 본다. 기존 AutoGen 코드나 팀 채팅형 실험 자산이 있다면 AutoGen을 유지할 수 있지만, 새 프로젝트라면 AutoGen 자체보다 Microsoft Agent Framework까지 같이 봐야 한다.
내가 운영자라면 선택 순서는 이렇게 잡는다. “한 번 실행하고 끝나는 도구형 에이전트인가”, “상태를 저장하고 재개해야 하는 워크플로인가”, “여러 역할의 에이전트가 대화해야 하는가”, “보안 경계와 로그가 어디까지 필요한가”, “6개월 뒤에도 이 프로젝트가 지원될 가능성이 높은가”를 먼저 본다.
프레임워크 이름보다 이 5개 질문이 먼저다. 이름부터 고르면 나중에 구조가 프레임워크 모양으로 굳는다. 그러면 기능 하나 추가할 때마다 작은 이사 비용이 붙는다.
한 장 비교표
| 기준 | AgentScope | LangGraph | AutoGen |
|---|---|---|---|
| 기본 성격 | 에이전트 앱을 빠르게 구성하는 프레임워크 | 장기 실행·상태 기반 orchestration runtime | multi-agent chat·팀 패턴 중심 프레임워크 |
| 강한 지점 | ReAct, tool, skill, MCP, A2A, observability, sandbox 묶음 | persistence, durable execution, interrupt, human-in-the-loop, memory | AgentChat, teams, tool workbench, AutoGen Studio, 기존 예제 생태계 |
| 먼저 볼 사람 | 도구형 에이전트를 빠르게 실험하고 싶은 팀 | 명시적 상태머신과 재개 가능한 workflow가 필요한 팀 | 기존 AutoGen 사용팀 또는 multi-agent chat 실험팀 |
| 조심할 점 | 도구 실행 권한과 메모리 경계를 처음부터 잠가야 함 | 단순 플로우에는 구조가 무거울 수 있음 | 공식 maintenance mode라 신규 선택에는 리스크가 큼 |
| 선택 문장 | “도구 많은 ReAct 에이전트를 빨리 묶자” | “상태와 승인 지점을 명시적으로 관리하자” | “기존 자산은 유지하되 신규는 후계 프레임워크를 보자” |
이 표에서 제일 중요한 칸은 마지막 줄이다. 프레임워크를 기능명으로 고르면 헷갈린다. 실제 선택은 운영 문장으로 해야 한다.
기준 1. 워크플로가 선형인가, 상태머신인가
단순한 RAG, 짧은 질의응답, 한 번의 도구 호출은 프레임워크가 커질수록 오히려 불편해질 수 있다. 함수 몇 개와 큐 하나로 끝날 일을 그래프, 팀, 메모리, tracing까지 붙이면 멋은 나지만 유지보수자는 조용히 늙는다. 개발자에게는 타임머신이 없지만, 레거시는 거의 타임머신처럼 미래의 나를 찾아온다.
LangGraph 공식 문서는 자신을 low-level orchestration framework와 runtime으로 설명하고, long-running, stateful agents에 초점을 둔다. persistence 문서는 graph state를 checkpoint로 저장하고, human-in-the-loop, memory, time travel, fault-tolerance에 필요하다고 정리한다.
따라서 LangGraph는 “복잡한 상태가 있고, 중간에 멈추고, 사람이 보고, 실패 후 다시 이어야 하는” 작업에 어울린다. 예를 들어 문서 파싱 후 승인, 주문 전 검수, 데이터 정제 파이프라인, 장기 조사 작업처럼 각 단계의 상태가 중요하면 LangGraph 쪽이 맞다.
반대로 AgentScope는 도구형 에이전트를 빠르게 구성하는 쪽에서 시작점이 좋다. README 예제부터 Toolkit에 Python 실행과 shell command 실행 도구를 등록해 ReActAgent에 붙이는 구조를 보여준다. 이건 강력하지만, 동시에 권한 표면이 넓어진다는 뜻이다.
기준 2. 도구 실행 권한을 어디서 막을 수 있나
에이전트 프레임워크 선택에서 제일 위험한 착각은 “모델이 똑똑하면 도구도 안전하게 쓸 것”이라는 믿음이다. 실제 위험은 모델보다 도구 권한에서 나온다. 브라우저, 파일, shell, MCP 서버, 사내 API가 붙는 순간 에이전트는 말만 하는 프로그램이 아니라 행동하는 프로그램이 된다.
AgentScope는 tool, MCP, sandbox, observability를 문서에서 명시적으로 다룬다. 이 점은 좋다. 다만 README의 빠른 예제처럼 execute_shell_command 같은 강한 도구를 바로 붙일 수 있으니, 실무에서는 read-only 도구, write 도구, 외부 전송 도구를 분리해야 한다.
AutoGen도 MCP Workbench를 통해 MCP 서버 도구를 사용할 수 있다. 공식 README의 Playwright MCP 예제에는 신뢰할 수 있는 MCP 서버에만 연결하라는 경고가 들어 있다. 이건 작지만 중요한 신호다. MCP 서버는 로컬 환경에서 명령을 실행하거나 민감 정보를 노출할 수 있기 때문이다.
LangGraph는 도구 자체보다 상태와 흐름을 제어하는 쪽에 가깝다. 그래서 도구 권한 모델은 LangGraph 안에서 자동으로 해결된다고 보기보다, 노드별 입력·출력 계약, 승인 interrupt, checkpointer, tracing을 합쳐 직접 설계해야 한다.
기준 3. 메모리와 상태를 같은 말로 뭉개지 말 것
에이전트 문서에서 memory라는 단어가 나오면 좋아 보인다. 그런데 실무에서는 memory가 두 가지로 나뉜다. 하나는 대화나 작업 상태를 이어가기 위한 실행 상태이고, 다른 하나는 장기 지식이나 사용자 선호 같은 저장소다.
LangGraph는 persistence와 checkpoint가 강한 쪽이다. thread, checkpoint, state snapshot, replay, time travel 같은 개념이 명시되어 있다. 이건 “어디서 멈췄고 무엇을 다시 실행해야 하는가”를 다루는 데 유리하다.
AgentScope 문서는 short-term memory와 long-term memory, database support, memory compression 같은 기능을 다룬다. 에이전트가 도구 사용과 함께 기억을 관리해야 하는 애플리케이션에는 매력적이다. 대신 어떤 정보가 메모리에 들어가고, 언제 삭제되고, 로그와 tracing에 어떻게 남는지는 따로 정책을 세워야 한다.
AutoGen AgentChat도 팀이 stateful하게 이어질 수 있고, AgentChat 문서는 team resume 흐름을 설명한다. 하지만 신규 프로젝트 관점에서는 AutoGen의 유지보수 상태를 함께 봐야 한다. 상태 저장 구조를 오래 가져가야 하는데 프레임워크가 유지보수 모드라면, 나중에 마이그레이션 비용이 생긴다.
기준 4. 관측성과 디버깅은 기본값인가
에이전트가 실패할 때 제일 난감한 건 “왜 그런 결론을 냈는지”가 아니라 “어느 도구 호출에서 망했는지”를 모르는 상황이다. 프롬프트, 도구 입력, 도구 출력, 메모리 조회, 중간 상태, 최종 응답이 흩어져 있으면 디버깅이 감으로 변한다.
AgentScope는 OpenTelemetry 기반 observability를 내세우고, LLM call, tool invocation, agent reply, formatter 같은 span을 추적한다고 설명한다. 이건 도구 호출이 많은 ReAct 계열 앱에서 유용하다.
LangGraph는 LangSmith와 붙었을 때 graph 실행 경로, 상태 전환, runtime metric을 보기 좋게 가져가는 흐름이 강하다. 문서도 복잡한 agent behavior를 trace하고 debug하라고 LangSmith를 자연스럽게 연결한다.
AutoGen은 AutoGen Studio와 Bench가 있고, no-code GUI로 multi-agent workflow를 프로토타입하는 흐름을 제공한다. 하지만 공식 문서도 AutoGen Studio를 production-ready app으로 보지 말라고 주의한다. 프로토타입과 운영 시스템을 같은 것으로 보면 여기서 사고가 난다.
기준 5. 프로젝트의 다음 6개월을 볼 것
프레임워크 선택에서 의외로 중요한 건 기술보다 지원 상태다. 지금 예제가 잘 돌아가도, 다음 분기부터 핵심 기능이 다른 프로젝트로 이동하면 팀은 마이그레이션을 해야 한다.
AgentScope는 2026년 4월 AgentScope 2.0이 오고 있다고 README에 적혀 있고, 2026년 1월 memory module의 database support와 memory compression 업데이트를 공지했다. 즉 변화가 빠르다. 빠른 실험에는 좋지만, 버전 고정과 업그레이드 검토가 필요하다.
LangGraph는 LangChain 생태계 안에서 low-level runtime 위치가 명확하다. LangChain이 higher-level agent framework이고, LangGraph가 orchestration runtime이며, LangSmith가 tracing과 deployment를 맡는 식으로 역할이 나뉜다. 이 구조가 마음에 들면 강하다. 반대로 LangSmith까지 자연스럽게 따라오는 운영 모델이 부담이면 가볍게 보기 어렵다.
AutoGen은 가장 큰 경고등이 있다. 공식 GitHub README는 AutoGen이 maintenance mode이고 신규 기능이나 enhancement를 받지 않으며, 새 사용자는 Microsoft Agent Framework로 시작하라고 안내한다. Microsoft Agent Framework 문서도 AutoGen과 Semantic Kernel의 직접 후계라고 설명한다. 따라서 2026년에 새 프로젝트를 시작한다면 “AutoGen vs LangGraph”가 아니라 “Microsoft Agent Framework vs LangGraph”까지 질문을 바꿔야 한다.
선택표
| 상황 | 먼저 볼 선택지 | 이유 |
|---|---|---|
| MCP와 도구 호출을 붙인 ReAct 에이전트 실험 | AgentScope | tool, memory, MCP, observability, sandbox 흐름이 한 문서권에 모여 있다 |
| 승인·중단·재개가 필요한 업무 자동화 | LangGraph | checkpoint, interrupt, persistence, state history가 중심 기능이다 |
| 복잡한 상태머신을 명시적으로 관리해야 함 | LangGraph | graph state와 super-step 단위 checkpoint를 설계할 수 있다 |
| 여러 역할의 에이전트가 대화하는 프로토타입 | AutoGen 또는 Microsoft Agent Framework | AgentChat과 team 패턴이 이해하기 쉽지만 신규는 MAF도 같이 봐야 한다 |
| 기존 AutoGen 코드가 이미 있음 | AutoGen 유지 후 migration plan | 유지보수 모드라 바로 폐기보다 마이그레이션 경로를 먼저 잡는다 |
| 장기 운영할 새 사내 시스템 | LangGraph 또는 Microsoft Agent Framework | AutoGen maintenance mode 리스크를 피해야 한다 |
| 도구 권한과 shell 실행이 핵심 리스크 | AgentScope 또는 LangGraph | AgentScope는 sandbox/tool 문서를 보고, LangGraph는 노드별 승인 흐름을 직접 설계한다 |
이 표를 더 줄이면 이렇게 된다. 빠른 도구형 에이전트는 AgentScope, 상태 기반 운영 워크플로는 LangGraph, 기존 multi-agent chat 자산은 AutoGen 유지 후 MAF 검토다.
실수 TOP 7
첫 번째 실수는 스타 수로 고르는 것이다. GitHub star는 관심의 신호이지 내 팀의 운영 적합성은 아니다.
두 번째 실수는 “multi-agent”라는 말만 보고 AutoGen을 새 프로젝트에 넣는 것이다. 2026년 5월 기준 공식 저장소의 maintenance mode 안내를 먼저 봐야 한다.
세 번째 실수는 LangGraph를 모든 자동화에 붙이는 것이다. 단순한 3단계 업무는 일반 함수와 큐가 더 낫다. 그래프가 필요한 건 분기, 재시도, 승인, 재개가 실제로 있을 때다.
네 번째 실수는 AgentScope의 tool 등록을 편의 기능으로만 보는 것이다. shell, browser, MCP, 외부 API가 붙으면 권한 설계가 먼저다.
다섯 번째 실수는 memory를 무조건 좋은 기능으로 여기는 것이다. 메모리는 품질도 올리지만 개인정보, 삭제, 감사 로그 문제도 같이 만든다.
여섯 번째 실수는 observability를 나중에 붙이는 것이다. 에이전트는 중간 단계가 결과보다 더 중요할 때가 많다. 출시 후 로그를 붙이면 이미 어떤 실패는 재현이 어렵다.
일곱 번째 실수는 migration plan 없이 프레임워크를 고정하는 것이다. 에이전트 생태계는 아직 움직임이 빠르다. 도구 인터페이스, 상태 저장소, 모델 클라이언트, 로그 포맷은 가능한 한 얇게 감싸두는 편이 좋다.
내 선택 기준
내가 작은 팀에서 새 에이전트 기능을 붙인다면 첫 주에는 프레임워크를 하나로 못 박지 않는다. 먼저 도구 계약을 문서화하고, read-only 작업과 write 작업을 나누고, 샘플 업무 3개를 같은 입력·출력 형태로 태워본다.
그다음 AgentScope로 도구형 ReAct 앱을 빠르게 만들 수 있는지 본다. 동시에 LangGraph로 같은 업무를 상태 기반으로 쪼갰을 때 approval point와 checkpoint가 얼마나 자연스러운지 본다. AutoGen은 기존 코드가 있거나 multi-agent chat 프로토타입을 설명해야 할 때만 비교 대상으로 둔다.
핵심은 “어떤 프레임워크가 멋있나”가 아니다. 내 업무가 중간에 멈춰야 하는지, 누가 승인해야 하는지, 어떤 도구가 위험한지, 실패를 다시 실행할 수 있는지다. 이 질문에 답을 못 하면 어떤 프레임워크를 골라도 결국 회의가 길어진다.
FAQ
2026년에 AutoGen으로 새 프로젝트를 시작해도 되나?
공식 Microsoft AutoGen GitHub 기준으로는 신중해야 한다. AutoGen은 maintenance mode이고 새 기능을 받지 않으며, 새 사용자는 Microsoft Agent Framework로 시작하라는 안내가 있다. 기존 AutoGen 자산이 있다면 유지와 마이그레이션 계획을 같이 잡는 쪽이 현실적이다.
LangGraph는 초보 팀에게 너무 무겁나?
단순한 RAG나 짧은 tool call 앱이면 무거울 수 있다. 하지만 업무가 오래 돌고, 중간 승인과 재개가 필요하며, 상태 히스토리를 봐야 한다면 LangGraph의 무게가 비용이 아니라 안전장치가 된다.
AgentScope는 어떤 팀에게 잘 맞나?
MCP, tool, memory, observability, sandbox를 빠르게 엮어 도구형 에이전트를 실험하려는 팀에 잘 맞는다. 다만 shell command나 브라우저 자동화처럼 강한 도구를 붙일수록 권한 분리와 로그 정책을 먼저 세워야 한다.
셋 중 하나만 골라야 하나?
아니다. 실무에서는 tool interface와 state storage를 얇게 감싼 뒤, 일부 업무는 AgentScope로, 장기 상태가 필요한 업무는 LangGraph로 나눌 수 있다. 다만 운영팀이 감당할 수 있는 프레임워크 수에는 한계가 있으니 파일럿 후 하나를 중심축으로 정하는 게 좋다.
제일 먼저 해야 할 실험은 무엇인가?
같은 업무 하나를 세 가지 기준으로 쪼개보면 된다. read-only 조사, write 작업, 사람 승인 작업을 나누고, 각 프레임워크에서 로그가 어떻게 남는지 본다. 실행 결과보다 중간 상태와 실패 로그가 더 중요하다.
공식 출처
- AgentScope GitHub README
- AgentScope tool capabilities
- AgentScope memory docs
- AgentScope sandbox and tool docs
- AgentScope observability docs
- LangGraph overview
- LangGraph persistence
- AutoGen GitHub README
- AutoGen AgentChat agents
- AutoGen AgentChat teams
- Microsoft Agent Framework overview
함께 보면 좋은 글
- AgentScope 같은 오픈소스 AI 에이전트를 회사 업무에 붙이기 전 보안 체크리스트 2026
- AI 에이전트 자동화가 덜 깨지게 만드는 CLI 설계 2026 – JSON 입력·schema·dry-run 체크리스트
- AI 코딩 에이전트에 결제키와 배포권한을 어디까지 맡길까 2026 – 권한 분리 체크리스트
AgentScope, LangGraph, AutoGen은 같은 “에이전트 프레임워크”라는 이름 아래 있지만 운영 감각은 꽤 다르다. 빠른 도구형 실험, 상태 기반 워크플로, 기존 multi-agent chat 자산 중 어디에 가까운지 먼저 정하면 선택이 훨씬 덜 흔들린다.