실시간
뉴스

클라우드 서비스

잊힐만 하면 또…아마존 클라우드의 악몽

[디지털데일리 백지영기자] 지난 20일(현지시간) 미국 최대 동영상 스트리밍 서비스업체인 넷플릭스를 비롯해 에어비앤비, IMDb 등의 콘텐츠 접속이 6~8시간 동안 되지 않는다는 불만이 접수됐다. 원인은 아마존웹서비스(AWS)의 클라우드 서비스 장애 때문이었다.

과거에도 AWS는 종종 태풍 등 자연재해나 내부 운영상의 문제로 서비스에 장애가 생긴 적이 있으며, 이 때문에 AWS를 사용하는 수십개의 사이트 역시 극심한 피해를 입었다. 이번 장애로 또 다시 클라우드 서비스의 위험성이 부각됐다. 다만 AWS의 오랜 고객인 넷플릭스의 경우, 그동안의 경험(?)을 바탕으로 빠른 시간 내에 이를 해결했다.

AWS에 따르면, 이번 장애는 회사가 ‘US-EAST-1 리전’이라 부르는 미국 노스버지니아 데이터센터에서 발생했다. API 오차율을 향상시키기 위한 작업을 하던 중 장애가 발생하면서 20여개 이상의 인터넷 사이트와 애플리케이션이 일시적으로 접속이 중단됐다. 외부 서비스 분만 아니라 아마존의 스마트 스피커 ‘에코’와 같은 내부 서비스 역시 장애가 발생했다.

처음에는 AWS의 NOSQL DB인 ‘다이나모DB’에 이상이 생겼다가 나중에는 대표 서비스인 EC2를 비롯해 가상데스크톱서비스인 워크스페이스, 람다 등 22개 서비스가 중단되는 상황으로 이어졌다. 6시간 후에 다이나모DB 등 대부분의 서비스가 복구됐으며, 자동확장(오토 스케일링)과 같은 서비스는 그로부터 2~3시간 이후 정상 작동된 것으로 전해졌다.

이번 장애로 또 다시 AWS 고객들은 클라우드 서비스 장애에 따른 위험성을 느끼게 됐다. 장애가 발생해도 클라우드 서비스 업체에서 이를 복구할 때까지 손쓸 수 없는 상황이 눈앞에 펼쳐진 것이다. 다만 앞에서도 언급됐듯 넷플릭스의 경우 이전의 경험을 바탕으로 ‘심각한 상황’은 피할 수 있었던 것으로 알려졌다.

넷플릭스는 영화와 TV쇼 등을 전세계 5000만 가구에 스트리밍 방식으로 제공하는 미국 최대 온라인 동영상 스트리밍 서비스 업체다. 넷플릭스에 따르면, 내부적으로 어떠한 서비스 중단 사태가 와도 이를 복구하는 소위 ‘카오스 엔지니어링(chaos engineering)을 통해 이번 상황을 극복했다는 설명이다.

가용성 존(Availabily zone)이라 불리는 아마존의 여러 데이터센터를 활용하는 것이 핵심이다. 즉, 장애가 발생하지 않은 AWS의 다른 데이터센터로 트래픽 접속을 전환하는 액티브-액티브 복제 방식이 가능하도록 그동안 훈련해 왔던 것이 적중했다.

넷플릭스의 최고 아키텍트에 따르면, 이러한 액티브-액티브 복제에 최소 25%의 비용을 일종의 ‘보험 정책’의 일환으로 투자하고 있다는 설명이다. 현재 넷플릭스는 아파치 카산드라와 오픈소스 NOSQL DB를 사용하고 있으며, 서비스 가용성을 유지하기 위해 수천개의 카산드라 노드를 운영하고 있다.

<백지영 기자>jyp@ddaily.co.kr

디지털데일리 네이버 메인추가
x