[DD 인사이트] KT 장애 사태가 일깨운 경각심... 클라우드는 안전한가

박기록 2021.10.30 16:00:19

[디지털데일리 박기록 논설실장] 거의 모든 소통을 온라인으로 하는 사람들에게 1시간이 넘는 네트워크 단절은 매우 큰 고통이다. 

지난 25일, 발생한 KT의 네트워크 장애는 그런 단면을 그대로 보여줬다. 점심 시간과 맞물려 결제를 못한 식당 등 자영업자들은 곧바로 직접적인 피해를 입었고, 주식 거래를 못한 투자자들은 매도, 매수 타이밍을 놓쳤다. KT 인터넷과 연결된 거의 모든 서비스는 어떤 형태로든 차질을 빚었다.     

구현모 KT 대표가 고객들에게 머리를 숙일 수 밖에 없었다. 물론 지켜봐야겠지만 KT가 할 수 있는 것은 어쩌면 그것이 거의 전부 일지도 모른다. 과거 국내외 전산 장애로 인한 배상 사례들을 봤을때, 실제 피해액 산정은 피해자들이 체감하는 수준과는 상당한 괴리가 있었기 때문이다. 

5년전과 비교해 ICT기반의 비대면 거래가 폭증했지만 전산 장애로 인한 피해액을 산정할 마땅한 메뉴얼이 없는 것이 현실이다. 

한편으론 이번 KT 네트워크 장애 사태는 잠시 잊고 지냈던 기본적인 경각심을 일깨웠다. 아무리 통신 네트워크가 발달했어도 중대하고 치명적인 사고는 언제든지 일어 날 수 있다는 것과, 또 기업들은 사고 피해를 최소화하기위한 비상대응계획(BCP) 체계를 갖추고 있느냐는 것, 두가지다. 

물론 현실에 맞는 피해 구제를 위한 법과 제도적인 보완 역시 시급하지만 가장 실익이 큰 것은 역시 기업 스스로가 리스크를 최소화하는 것이다.  
   
이런 점에서 기업들이 현실적으로 심각하게 고민해봐야 할 문제가 ‘클라우드(Cloud)발 전산 대란(大亂)’ 가능성이다. 이번 KT의 1시간 네트워크 장애와 비교해 훨씬 심각한 사례들이 이미 글로벌 클라우드 기업들이 운영하는 서비스에서 여러차레 발생했기 때문이다.   

◆기업들에게 보다 현실적인 공포, ‘클라우드 장애’

‘디지털 전환’ 광풍으로, 국내에선 자체적으로 운영해왔던 IT인프라를 외부 IT업체에 맡기는 클라우드 전환이 가속화되고 있다. IT를 사용한 만큼만 지불하기 때문에 IT비용을 최소화할 수 있고, 또한 IT서비스 품질도 최소한 보장된다고 믿는다.

그런데 동시에 리스크도 커지고 있다는 것이 문제다. 이는 ‘클라우드 서비스 사업자들을 과연 완전히 신뢰할 수 있느냐’는 기초적인 의문에서 출발한다. 특히 완전히 IT인프라를 외부에 맡기는 ‘퍼블릭’(Public) 방식은 클라우드 서비스 제공 기업의 신뢰가 절대적으로 중요하다. 

그러나 현실은 아마존웹서비스(AWS)와 같은 세계 1위의 대형 클라우드 서비스기업 마저도 어떤 형태로든 사고가 발생하고 있다는 점이다.  

올해 1월, ‘리그오브레전드(롤)’, ‘쿠키런 킹덤’ 등 인기 게임에서 동시에 장애가 발생했다. 이들 게임은 AWS의 클라우드를 활용중이었는데, 장애에서 복구까지 무려 20시간에 가까이 서비스가 중단됐다. 당시 국내가 아닌 일본 도쿄의 AWS 리전에서 냉각시스템의 오류에 따른 전산 장애가 원인으로 추정됐다. 

이처럼 클라우드 서비스는 글로벌 IT인프라 자원을 최적 배분해서 운용되는 본질적인 특성상 그 자체로 복잡한 구조를 가진다. 사고 형태에 따라서는 클라우드 방식이 과거 토털 IT아웃소싱 방식보다 훨씬 더 치명적인 결과를 낳을 수도 있다는 의미다.  

이같은 우려때문에 은행 등 국내 주요 금융회사들은 이같은 클라우드가 가진 내재적 위험성을 고려해, 핵심 업무는 자체 관리하는 온프레미스(On-premise)방식으로 운영하고, 비핵심업무는 ‘퍼블릭’ 클라우드로 전환하는 ‘하이브리드’(Hybrid) 방식을 혼용하고 있다. 

또한 금융회사들은 1개의 특정 기업에게만 위탁하지 않고 여러 클라우드 사업자들과 서비스 계약을 맺음으로써, 특정 클라우드 기업에게 끌려다니지 않으려는 ‘멀티(Multi)’ 클라우드 계약 방식이 현재까지는 일반적이다.   

◆복잡한 클라우드 서비스 체계, ‘제3자 리스크’ 대응 전략은? 

그러나 이같은 촘촘한 안전장치 마저도 한편으론 또 다른 리스크가 된다는 점이 기업들에겐 골칫거리다. 다름아닌 ‘하이브리드 – 멀티’ 클라우드 방식이 가지는 ‘계약 관계의 복잡성’이 또 다른 위험이기 때문이다. 

다양한 시스템들을 클라우드로 관리하고, 또 여기에 복수의 클라우드 서비스 기업들과 계약을 맺을 경우, 지금부터는 관리의 문제가 현안이 된다. 

만약 '하이브리드-멀티' 방식의 클라우드를 적용했을때, 전산 사고가 발생하게되면 책임 소재를 따지는 것부터가 쉽지않은 것이 현실이다. 또한 책임 소재를 가리더라도 클라우드 기업으로부터 그 손해에 비례하는 충분한 배상 등 법적인 구제를 받아낼 수 있는 내부 역량도 부족하다.   

이처럼 복잡해진 클라우드 계약과 서비스 체계로 인해 기업이 새롭게 직면한 위험요소가 바로 ‘제3자 리스크’이다. 과거 ‘토털 IT아웃소싱’ 방식으로, 단일 사업자에게 IT 운영을 위탁 운영했던 시절에는 크게 부각되지 않았던 사안들이다. 

◆금융권의 '제3자 리스크' 대응 사례… '클라우드 통합관리서비스' 전략 강화

지난 2019년 1월부터 금융 클라우드가 사실상 전면 허용됐다. 이후, 금융 감독 당국은 이같은 ‘제3자 리스크’를 매우 중요한 위험 인자로 인식하고 금융권에 철저한 대응을 주문해왔다.

이 때문에 실제로 올해 금융권에선 KB금융, 농협은행 등을 중심으로 ‘클라우드 서비스 통합 관리’ 역량을 강화하는 모습이 나타나고 있는데 이는 긍정적으로 평가된다.

올해 KB금융그룹은 국민은행 등 전체 계열사들의 공동 클라우드 운용 플랫폼인 ‘KB 원(One) 클라우드’를 역점 사업으로 추진했다. 이와함께 기존 ‘퍼블릭 및 프라이빗’ 클라우드 관리체계를 보다 효율적으로 정비하기위해 올해 6월 이를 위한 사업자로 KB데이타시스템을 선정한 바 있다. ‘제3자 리스크’ 대응 차원이다. 

NH농협은행도 올해 6월 ‘NH퍼블릭 클라우드 표준사업자’를 선정해 이같은 제3차 리스크 대응에 나섰다. 농협은행의 경우, 업무의 중요도를 고려해 '중요 업무'와 '비중요 업무'로 구분하고 네이버클라우드와 AWS 2개 사업자가 중요업무 표준 클라우드 사업자로, 오라클은 나머지 업무를 수행하는 사업자로 각각 선정됐다.  

이제 금융권 뿐만 아니라 다른 산업군에서도 이같은 ‘클라우드 통합관리서비스’ 를 강화하기위한 노력이 필요해졌다.  

그동안 기업들은 클라우드의 혁신성만 강조해왔을뿐 상대적으로 그 위험성에 대한 지적은 적었던 것이 사실이다. 하지만 클라우드에 대한 의존도가 급격하게 커지고 있는 만큼 ‘클라우드 통합관리서비스’와 같은 새로운 대응을 동시에 강화해야할 시점이고, 사회적 공감대도 커져야 한다. 이번 KT 네트워크 장애 사태를 통해 반드시 우리가 얻어야할 교훈이다.