아마존닷컴(NASDAQ:AMZN)의 아마존 웹 서비스(AWS)는 월요일 회사에서 가장 크고 중요한 데이터 허브인 미국 동부 1 지역(버지니아 북부)에서 다수의 클라우드 서비스에 걸쳐 오류율과 지연 시간이 증가하는 원인이 된 광범위한 운영 중단을 확인했다.
태평양 일광 절약 시간(PDT) 기준 오전 12시 11분 AWS 엔지니어가 EC2, 다이나모DB(DynamoDB), 람다(Lambda), RDS, ECS 및 글루(Glue)를 포함한 수많은 서비스에 영향을 미치는 높은 오류율 및 대기 시간 조사에 착수했다.
한 시간 이내에 회사는 문제의 원인이 다이나모DB의 API 엔드포인트에서 DNS 해상도 실패에서 비롯되었음을 확인했으며, 이로 인해 IAM 업데이트 및 다이나모DB 글로벌 테이블과 같은 여러 종속 시스템 및 글로벌 서비스에 영향을 미쳤다.
또 읽어보세요: 아마존 AWS CEO, 주요 AI 진전 암시
PDT 기준 오전 2시 22분까지 AWS는 초기 완화 조치를 적용했으며 “회복의 초기 징후”가 나타나기 시작했다. AWS가 서비스 백로그를 정리하는 동안 고객에게 실패한 요청을 다시 시도할 것을 권장했다.
오전 3시 35분에 AWS는 DNS 문제를 완전히 완화하여 대부분의 서비스 운영을 정상으로 복원했다고 발표했다. 그러나 회사가 추가 복구 조치를 구현함에 따라 일부 가용 영역에서 여전히 새로운 EC2 인스턴스 출시가 용량 관련 오류에 직면했다.
오전 4시와 6시 사이에 AWS는 점진적으로 모든 영향을 받는 영역에서 완전한 기능을 복원했다. 엔지니어들은 새로운 EC2 인스턴스 출시를 재활성화하고 이벤트브릿지(EventBridge) 및 클라우드트레일(CloudTrail)에 대한 백로그를 처리했으며 람다 SQS 이벤트 매핑을 정상화했다.
회사는 고객에게 AWS가 사용 가능한 용량을 자동으로 선택할 수 있도록 특정 가용 영역을 대상으로 하지 않고 새 EC2 인스턴스를 시작할 것을 권장했다. PDT 기준 오전 5시 48분까지 AWS는 꾸준한 진행 상황을 확인했으며 “대부분의 요청이 성공”했다고 보고했다.
서비스 중단으로 70개 이상의 AWS 제품에 영향을 미쳤으며 전 세계 여러 주요 웹사이트와 애플리케이션들이 중단되었다. AWS는 이 문제가 보안 관련 문제가 아닌 운영 문제였으며 엔지니어링 팀이 “여러 병렬 경로에서 작업하여 복구를 가속화했다”고 밝혔다.
다운디텍터(Downdetector)에 따르면, 이 정전으로 인해 여러 산업에 일시적인 파장이 일었고, 아마존, 월트 디즈니 컴퍼니(NYSE:DIS)의 디즈니+, 리프트(NASDAQ:LYFT), 맥도날드(NYSE:MCD) 앱, 뉴욕 타임스(NYSE:NYT), 레딧(NYSE:RDDT), 링(Ring), 로빈후드 마켓츠(NASDAQ:HOOD), 스냅(NYSE:SNAP)의 스냅챗, T-모바일 US(NASDAQ:TMUS), 유나이티드 항공 홀딩스(NASDAQ:UAL), 벤모(Venmo) 및 버라이즌 커뮤니케이션스(NYSE:VZ)과 같은 웹사이트들이 일시적으로 액세스할 수 없게 되었다고 CNBC가 보도했다.
영국 정부 웹사이트인 Gov.uk 및 영국 국세청(HMRC)도 오프라인 상태가 되었다.
로이즈 뱅킹 그룹(Lloyds Banking Group)은 서비스 중단을 확인했다.
유나이티드 및 델타 항공(NYSE:DAL)의 항공편을 이용하는 승객들도 체크인 또는 예약 액세스에 어려움을 겪었다고 보고했다.
로블록스(NYSE:RBLX), 포트나이트(Fortnite), 코인베이스 글로벌(NASDAQ:COIN), 캔바(Canva) 및 퍼플렉시티 AI와 같은 클라우드 기반 플랫폼 모두 중단을 보고했다.
가격 동향: AMZN 주가는 월요일 정규 거래에서 1.61% 상승 216.48달러에 마감되었다.
다음 읽기:
사진: Shutterstock
Benzinga Pro의 독점 뉴스 및 도구로 더 많은 승리를 거두세요
독점 속보 및 스캐너와 같은 Benzinga Pro의 강력한 도구 세트로 다른 트레이더보다 우위를 점하세요.
여기를 클릭하여 14일 무료 체험을 시작하세요.

