지난 22일 아마존웹서비스(AWS)의 서울 리전(복수의 가용성 영역(AZ), 데이터센터 묵음)에 장애가 발생하며 이를 이용하는 다수의 서비스가 정상 작동하지 않았습니다. 배달의민족과 쿠팡, 여기어때와 같은 서비스 뿐만 아니라 업비트, 두나무 등 AWS에서 운영되는 암호화폐거래소에서까지 장애가 발생하면서 사용자들이 불편을 겪었는데요.
AWS에 따르면 이날 장애는 오전 8시 19분에서 9시 43분(84분)까지 EC2의 도메인네임시스템(DNS)에 이슈가 발생하며 발생했습니다. 이후 25일 AWS는 자사 블로그를 통해 복구 과정을 밝히며 재발 방지를 막겠다고 사과했습니다.
AWS와 클라우드의 위험성이 거론됐고, 그 대안으로 국내 클라우드 서비스를 이용해야 한다는 목소리마저 있었습니다. 국내에서만 왜 장애가 발생했느냐는 지적도 있던데, 전세계적으로 클라우드 서비스 장애는 종종 있는 일입니다. AWS만 하더라도 그동안 태풍이나 개발자의 명령어 입력 실수 등으로 미국 리전에선 장애가 왕왕 발생하고 있습니다.
실제 클라우드 서비스의 장애는 언제 어디서든 일어날 수 있습니다. 비단 AWS 뿐만 아니라 다른 클라우드 서비스나 자체 데이터센터에서도 언제든지 발생할 수 있는 사고입니다. 오히려 개별적으로 데이터센터나 전산실을 운영하는쪽의 장애가 훨씬 많을 것입니다. 다만 여러 기업들이 사용하는 클라우드 서비스이다보니 그 파장이 더 컸던 것이지요. 일각에선 “그나마 AWS 정도이니 빨리 해결이 됐다”는 반응도 있었습니다.
문제는 장애가 났을 때 이에 얼마나 빠르게 대처, 복구시키느냐입니다. 물론 장애를 발생시킨 AWS에 근본적인 책임이 있지만, 사실상 한국 고객사에서 피해가 속출했던 것은 미리 멀티리전 이중화를 하지 않았거나 AWS에 너무 의존했기 때문이라는 분석입니다.
인프라 구성 설계 시점부터 백업과 장애 대응 시나리오를 미리 감안했던 곳은 피해가 적었기 때문입니다. 백업은 기본적인 운영비용을 증가시키기 때문에 이를 제대로 수행하는 곳은 드뭅니다. 클라우드 서비스에 백업까지 할 경우, ‘비용절감’ 이라는 클라우드 서비스의 장점에 마이너스가 될 수도 있기 때문입니다.
AWS의 대표적인 사용자로 알려진 ‘넷플릭스’가 좋은 예가 될 것입니다. 넷플릭스는 2016년 마지막 데이터센터를 폐쇄하고 7년에 걸친 AWS으로의 이전 작업을 끝냈습니다. AWS 활용과 기술역량에 있어 가장 앞선다는 평가를 받고 있는 넷플릭스조차 클라우드로 완전히 이전하기까지 7년이나 걸렸다는 점은 많은 것을 시사합니다.
넷플릭스는 클라우드 환경이라도 시스템 장애는 피할 수 없는 것이라고 여겼고, 아키텍처 구성과 성능 저하에 대한 원칙을 세웠습니다. 특히 ‘카오스 몽키’와 같은 일련의 테스트 기술로 훈련하면서 장애에 효과적으로 대응했습니다. 이는 실패를 미리 주입해 시스템의 회복력을 시험하는 넷플릭스의 엔지니어링 방법론입니다.
이번 장애로 클라우드 서비스의 안정성 확보를 위한 기업들의 다양한 노력이 이뤄질 것으로 전망됩니다. 24일에는 KT아현지사에 화재가 발생하며 통신망 관리의 허점이 발견되기도 했습니다.
아래는 지난주 국내에 전해진 국내외 클라우드 관련 소식입니다.
개별 기사에 대한 좀 더 자세한 내용을 원하시는 분은 기사 제목을 검색하시면 전체 내용을 읽으실 수 있습니다.
◆KT 통신망 불통→경제활동 차질…5G 시대 향한 ‘경고’=지난 24일 서울 서대문구 KT아현지사에서 화재가 났다. KT 유선 서비스는 ▲중구 ▲용산구 ▲서대문구 ▲마포구 ▲은평구 일대에서 중단됐다. 해당 지역에선 기본적 연락뿐 아니라 카드 결제도 공중전화도 할 수 없었다. 우회 접속으로 정상화를 시도했지만 여의치 않다. 부하는 나눠 갖는 방식은 전체 통신서비스 품질 저하를 가져올 우려가 있다. 장비가 물리적으로 손상돼 완전 복구는 상당 시간이 필요할 전망이다. ▲스마트홈 ▲스마트시티 ▲인공지능(AI) 등 전기, 클라우드, 통신이 없으면 무용지물이다. 그림자가 더 짙어질 가능성이 높다.
◆아마존(AWS) 클라우드 장애…쿠팡·배민도 멈췄다=아마존웹서비스(AWS)의 클라우드 서비스에 장애가 발생하며 국내 서비스 이용자들이 불편을 겪었다. 22일 오전 9시를 전후로 AWS을 활용하는 쿠팡, 배달의 민족, 야놀자 등 서비스 기업들의 홈페이지 및 스마트폰 애플리케이션 내 일부 기능은 아직 작동하지 않고 있다. 실제 AWS의 서비스 헬스 대시보드에 따르면 서울 리전 다수의 서비스가 정상적으로 작동하지 않는 것을 볼 수 있다. 장애는 22일 오전 8시 19분경(태평양 표준시 21일 오후 3시19분)부터 발생한 것으로 보인다.
◆아마존 클라우드 장애, 멀티 클라우드 이슈 부각될까=클라우드는 ‘새로운 표준’이라는 구호처럼 클라우드 서비스 사용은 일상적이 되고 있다. 하지만 클라우드 서비스에 문제가 생기면 그 파장은 크다. 다수의 고객이 사용하고 있는 만큼, 한번 장애가 발생하면 피해 규모가 막대하다. 때문에 최근 급부상하는 것이 여러 퍼블릭 클라우드 서비스를 활용하는 ‘멀티 클라우드’나 프라이빗 클라우드와의 연계가 가능한 ‘하이브리드 클라우드’ 등이다. 물론 AWS 내에서도 이중화 구성이 가능하다. 다른 리전에 재해복구(DR) 시스템을 구축하는 방안이다. 무엇보다 이번 장애로 국내에서도 멀티 혹은 하이브리드 클라우드에 대한 관심이 높아질 것으로 예상된다.
◆AWS, “서울 리전 서비스, 자세한 장애 원인은…”=AWS에 따르면, 22일 한국 시간 오전 8시 19분에서 9시 43분(84분)까지 서울 리전에서 EC2 인스턴스에 DNS 확인 이슈가 있었다. AWS 측은 “DNS 확인 문제의 근본 원인은 설정 업데이트 시 서울 리전의 EC2 DNS 확인 서버군의 최소 정상 호스트를 지정하는 설정을 잘못 제거한 것에 따른 것”이라며 “이로 인해 최소한의 정상 호스트 구성 기본 설정 값이 매우 낮은 것으로 해석돼 정상 서비스 호스트 숫자가 줄어들었다”고 설명했다. AWS는 “이번 경우로 인해 고객 여러분들에게 끼친 영향에 대해 사과드린다. 큰 교훈을 얻었으며, 저희의 가용성을 더욱 높이기 위해 최선의 노력을 다 할 것”이라고 강조했다.
◆클라우드 서비스 장애나면 보상은 어떻게 받을까=클라우드 서비스 업체들은 보통 SLA를 기반으로 장애에 대한 보상금액을 정한다. SLA는 일종의 서비스 수준 협약서로, 서비스 공급자와 사용자 간 공식적으로 합의되는 사항이다. 현재 아마존의 EC2 서비스의 경우 최소 99.99%의 월간 가동률을 보장한다고 홈페이지에 명시돼 있다. 월별 가동시간이 99.0%~99.99% 미만일 경우 10%, 99.0% 미만일 경우 30%의 서비스 크레딧을 지급하는 구조다. 서비스 크레딧은 AWS 클라우드 서비스의 이용권을 뜻한다.
◆사상 최대 '미 국방부 JEDI' 클라우드 구축사업…논란속 ‘원 벤더’ 로 방향=미 국방부의 공동방어인프라(JEDI)의 클라우드 구축 사업이 기존대로 단일 벤더 선정 방식으로 추진될 전망이다. 미 감사원(GAO)이 오라클 등 일부 사업자가 제기한 문제제기를 거절했다. 앞서 지난 9월 미 국방부는 100억달러(한화로 약 11조4000억원) 규모의 공동방어인프라(JEDI) 구축 및 운영을 맡을 민간 클라우드 사업자 선정과 관련한 사업 제안서를 받았다. 감사원은 “단일 벤더 선정 방침은 국가 보안 문제 등 여러 가지 사항을 고려해 합리적으로 결정한 것”이라며 “적용 가능한 법률 및 법안이 허용하는 부분에서 단일 벤더 선정이 정부로써는 최선의 이익이라고 판단한 것”이라고 공식 입장을 밝혔다.
◆KB금융, 클라우드를 활용한 협업 플랫폼 ‘CLAYON’ 오픈=KB금융그룹(회장 윤종규)은 디지털 혁신을 선도하고 외부와의 협업을 가속화하기 위하여 ‘CLAYON’ 플랫폼을 오픈했다고 20일 밝혔다. ‘CLAYON’은 Cloud + Play + On의 합성어로, 클라우드를 기반으로 내부직원과 외부의 다양한 참여자들이 자유롭게 새로운 아이디어를 구현하고 실행하는 것을 의미한다. ‘CLAYON’은 클라우드 개발환경과 웹 포탈로 구성되는데, 주요 기능은 서비스 개발자가 원하는 개발환경을 간편하게 제공, 개발된 서비스와 솔루션을 등록하여 누구나 활용할 수 있는 체계, 동영상을 등록하고 다운받을 수 있는 환경, 프로젝트 협업 툴 등이다.
◆GS네오텍, ‘페이게이트’ AWS 이전 완료=GS네오텍(대표 남기정)은 핀테크 전문 기업 페이게이트(PayGate)의 클라우드 환경 마이그레이션(이전)을 성공리에 마쳤다고 19일 밝혔다. 이번 마이그레이션은 페이게이트의 핀테크 플랫폼인 ‘세이퍼트(Seyfert)’ 전문 센터가 서울에 개설됨에 따라 최적의 서비스 제공을 위해 기존 일본 도쿄에 있던 AWS 인프라를 국내로 이전하면서 진행됐다. 사전 파일럿 테스트를 통해 오류나 문제점을 철저히 점검했다. 비용 최적화를 통해 기존 서버 운영 부담도 약 30% 이상 절감됐다.
◆신한은행, 글로벌 대외계 시스템 클라우드로 전환=신한은행이 글로벌 대외계 시스템을 클라우드로 전환한다. 신한은행은 글로벌 대외계 시스템 클라우드 전환을 위해 프라이빗 클라우드 구축을 위한 하드웨어 도입 및 시스템 통합(SI) 사업자 선정에 나섰다. 대외계(FEP)시스템은 은행과 다양한 대외기관을 연계해 타행송금과 같은 지급결제를 수행한다. 이 대외계시스템을 통해 은행은 전자금융공동망, CD공동망, 법원망, 경찰정보망 등 수백개의 대외기관망과 연결된다. 글로벌 대외계 시스템의 경우 각국 현지법인에 구축된 계정계시스템의 대외 기관 연동을 담당한다.
◆시만텍, '클라우드 보안' 통합 전략 내세워=시만텍은 22일 서울 강남파이낸스센터에서 기자간담회를 갖고 클라우드 워크로드 어슈어런스(CWA), 클라우드 스토리지 보안(CWP), 고객 정의 클라우드 애플리케이션 지원이 가능한 '클라우드SOC CASB'를 발표했다. 김봉환 시만텍코리아 상무는 "'통합 사이버 보안 플랫폼'은 모든 클라우드 앱에 대한 가시성과 제어를 제공하며 광범위한 클라우드 보안을 지원할 수 있다"면서 "또 신규 API 연동 기능으로 심도있는 클라우드 보안을 제공한다"고 강조했다.
◆이노그리드, 스마트시티 국가 프로젝트 참여=이노그리드는 국토교통부와 과학기술정보통신부 ‘스마트시티 국가전략프로젝트’에 선정됐다고 22일 밝혔다. 이노그리드는 전자부품연구원(KETI), LG유플러스와 함께 선정됐다. 이노그리드는 자사의 오픈스택 기반 ‘오픈스택잇’을 통해 1단계 스마트시티 인프라 구축에 들어갈 예정이다. 이번 스마트시티 사업은 지난 2016년 제2차 과학기술전략회의에서 국가전략프로젝트로 선정된 9대 연구개발사업 중 하나다. 올해부터 2022년까지 5년 간 총 1159억원이 투입된다.
◆시스코, 클라우드 콜링·협업 툴 출시=시스코 코리아(대표 조범구)는 클라우드 콜링과 팀 협업 툴을 선보였다고 21일 밝혔다. 시스코 브로드클라우드 콜링은 클라우드 기반의 전화 서비스이다. 기존 기업용 PBX를 제공하는 모든 서비스를 제약없이 사용할 수 있도록 설계됐다. 서비스 사업자를 통해 시스코 웹엑스 팀즈도 함께 사용할 수 있다. 플렉스 플랜에 추가되어 통신 사업자를 통해 구매할 수 있다. 기업들은 기본 구독료를 통해 필요한 모든 협업 툴을 사용할 수 있다. 또 상황에 맞게 구축형, 클라우드형, 믹스 앤 매치형으로 선택할 수 있다.
<정리=백지영 기자>jyp@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지
주파수 재할당대가, 정부가 부르는게 값? “산정방식 검토 필요”
2024-11-22 18:23:52유료방송 시장, 역성장 지속…케이블TV 사업자 중 SKB 유일 성장
2024-11-22 13:28:49[디즈니 쇼케이스] 판타스틱4, MCU 합류…미소 짓는 케빈 파이기
2024-11-22 12:56:31LGU+, 기업가치 제고 계획 발표…"AX 컴퍼니 구조 전환 가속화"
2024-11-22 10:18:34LG헬로 송구영 대표이사 재선임…사업 수익성 개선 '총력'
2024-11-21 18:33:01드림어스컴퍼니, 자본준비금 감액해 이익잉여금 500억원 전입
2024-11-22 14:57:25야놀자·인터파크트리플, 12월 ‘놀 유니버스’로 법인 통합
2024-11-22 14:57:10논란의 ‘퐁퐁남’ 공모전 탈락…네이버웹툰 공식 사과 “외부 자문위 마련할 것”
2024-11-22 14:23:57쏘카·네이버 모빌리티 동맹 순항…네이버로 유입된 쏘카 이용자 86%가 ‘신규’
2024-11-22 12:58:15