AWS DevOps Agent는 AWS에서 발표한 프리뷰 단계의 자율형 DevOps 엔지니어 에이전트입니다. 장애 발생 시 자동으로 조사/분석을 시작하고, 근본 원인 파악 및 대응 권장 사항을 제공하여 MTTR을 줄이고 향후 재발 방지를 돕는 도구입니다.
1. AWS DevOps Agent란?
AWS DevOps Agent는 Frontier Agent로 분류되는 신규 서비스입니다. 운영 중 발생하는 인시던트를 자동으로 탐지·조사하고, 과거 관련 데이터를 상관 분석하여 근본 원인을 도출합니다. 관찰성 도구, 배포 파이프라인 정보, 로그·지표 등을 연계해 대응 흐름을 자동화합니다.
대표적으로 다음과 같은 작업을 수행합니다.
- 인시던트 실시간 자동 조사
- 근본 원인 탐지(RCA) 및 영향 범위 분석
- 채팅 기반 조사 인터페이스 제공
- Slack/ServiceNow 등으로 자동 알림 및 상태 보고
- 과거 인시던트 기반 예방 추천 사항 제공
2. 준비
DevOps Agent가 자동 분석을 하기 위해서는 다양한 데이터 소스를 연결해야 합니다.
연결 가능한 주요 도구
| 종류 | 도구 |
| 관찰성 지표/로그 | Amazon CloudWatch, Datadog, Dynatrace, New Relic, Splunk |
| 배포/코드 리포지토리 | GitHub Actions & Repositories, GitLab CI/CD |
| 티켓/알림 | Slack, ServiceNow, PagerDuty |
| 추가 통합 | MCP(Model Context Protocol) 기반 커스텀 통합 |
이 연결은 처음 설치 시 혹은 이후 설정을 통해 구성할 수 있으며, 각 도구의 API 권한 설정이 필요합니다.
3. 설치 및 설정 단계
여기서는 AWS Management Console 기준으로 진행합니다.
3.1 Agent Space 생성

- AWS 콘솔에 로그인 후 DevOps Agent 서비스 페이지로 이동합니다.
- Agent Space 생성을 선택합니다.
- 이름 지정
- 접근할 AWS 계정 IAM 역할 생성
- Agent Space는 조사 범위를 정의하는 논리 단위입니다.
- 애플리케이션 단위
- 팀 단위
- 중앙 집중식 운영 단위 등으로 구분 가능
3.2 관찰성 도구와 연동 구성

- CloudWatch, Datadog 등 관찰 도구에 대한 API/권한 설정
- 로그 그룹, 지표, 트레이스 엔드포인트를 DevOps Agent가 접근 가능하도록 구성
- 필요 시 IAM 역할 및 정책을 세밀히 조정
3.3 채널 알림 및 티켓 시스템 연결
- Slack 워크스페이스 / 채널
- ServiceNow 인시던트 큐
- PagerDuty 등
각 도구의 API 키/웹훅 URL을 입력하여 연결합니다.
4. 인시던트 대응 과정
4.1 트리거
- CloudWatch 알람, 외부 티켓 생성 등 이벤트 발생 즉시 DevOps Agent가 조사를 시작합니다.
- 조사에는 로그·지표·배포 이력·추적 정보가 모두 포함되며, 관련 컴포넌트 간 상관 분석이 수행됩니다.
4.2 대시보드

DevOps Agent 웹 UI에서 다음 활동을 수행할 수 있습니다.
- 현재 조사 상태 확인
- 조사 근거 로그/지표 조회
- 조사 중 요약 및 결과 확인
- 조사에 대한 질문 입력
- 현황을 토대로 조치 플랜 확인
예: “어떤 로그 그룹을 분석했나요?”, “이 문제 해결을 위해 어떤 설정이 필요한가요?” 같은 질의가 가능합니다.
4.3 커뮤니케이션
- Slack/ServiceNow를 통해 자동 알림/업데이트
- 자동 권장 해결 조치
- AWS Support 케이스 자동 생성 옵션 (필요 시)
5. Root Cause & 예방 분석

DevOps Agent는 단순히 당면한 인시던트 대응에 그치지 않고, 과거 인시던트 패턴을 분석하여 재발 방지 권장 작업을 제공합니다.
추천 예시
| 항목 | 예시 |
| 관찰성 개선 | 지표/로그 모니터링 추가 |
| 인프라 최적화 | Horizontal Pod Autoscaler 제안 |
| 배포 파이프라인 강화 | 테스트/롤백 자동화 권장 |
| 애플리케이션 복원력 | 멀티 AZ 구성 검토 |
이 추천은 분석 모델이 운영 패턴을 이해한 후 제공됩니다.
6. 운영 시 주의사항
- 현재는 프리뷰(미리보기) 단계입니다. 일부 기능은 변경될 수 있습니다.
- 자동 분석의 정확도는 관찰성·로그·배포 이력 데이터 품질에 크게 의존합니다. 품질이 낮으면 결과도 제한적일 수 있습니다.
- 에이전트가 해결 조치를 대신 적용하는 기능은 아직 없으며, 제안 수준입니다.