[디지털데일리 이안나 기자] 지난 10월 SK C&C 판교 데이터센터 화재로 전국민 대상 카카오 서비스가 ‘먹통’을 일으킨 후, 관련 정부부처가 합동 조사 결과를 발표했다. 데이터센터 화재로 인한 대국민 피해는 결국 SK C&C와 카카오 양사 미흡한 시스템 체계가 만든 사고인 것으로 나타났다.
6일 과학기술정보통신부(장관 이종호, 이하 과기정통부)는 방송통신위원회(이하 방통위), 소방청과 함께 지난 10월15일 SK C&C 판교 데이터센터 화재 및 카카오 · 네이버 등 부가통신서비스 장애에 대한 조사 결과를 발표했다.
과기정통부는 SK C&C, 카카오, 네이버 3사에게 1개월 이내 주요 사고원인에 대한 개선조치와 향후 계획을 수립해 보고하도록 한다는 계획이다.
◆ 제기능 못한 SK C&C BMS·UPS…배터리실 안전구조 미흡=SK C&C 판교 데이터센터가 배터리 온도 등을 모니터링하는 시스템(BMS)를 갖추고 있었다. 발화로 인해 온도가 올라가면 BMS 센서가 달라진 온도를 인지하고 징후를 보여야 한다. 문제는 이 BMS가 화재 발생 직전까지 아무 이상징후를 보이지 않았다는 점이다. BMS가 화재를 감지하지 못하고 지하 3층 내 배터리실에서 발화가 시작됐다.
원칙대로라면 리튬이온 배터리에서 불이나 데이터센터 전원 공급이 끊어지더라도, 무정전전원장치(UPS)가 작동되면 서버 가동을 이어갈 수 있다. 그런데 판교 데이터센터에선 화재 열기 등으로 UPS 작동이 중지됐고, 일부 전원 공급마저 중단됐다. 역시 이유는 SK C&C 미흡한 대처에 있었다. 리튬이온 배터리를 일부 UPS와 물리적으로 완벽히 분리하지 않은 잘못이다.
더군다나 배터리 상단에 전력선이 지나가도록 두면서, 이 전력선마저 화재로 손상됐다. 서버로 이어진 이 전력선이 불타면서 전국민 카카오 서비스 ‘먹통’ 사태가 시작된 것이다. 화재 대비 매뉴얼은 있었지만 살수 상황, 발화 구역 등 실재 수준까지 반영한 세부 대응계획 및 모의훈련이 없었다는 점도 피해를 키운 원인으로 지적됐다.
과기정통부 등 정부 부처는 SK C&C에 대한 시정조치 내용으로 크게 ▲데이터센터 화재 예방·탐지 ▲데이터센터 전력공급 생존성 확보에 대해 주문했다. 구체적으론 제대로 작동하지 않은 BMS 관련, BMS 계측정보 등 관리 강화 방안과 현재 BMS 외 다양한 화재감지 시스템 구축 방안을 수립하라고 지시했다. 리튬이온 배터리 화재 시 필요한 소화설비 등도 구축해야 한다.
화재를 키운 요인인 UPS 작동 중지와 전력선 위치에 대해서도 시정을 요구했다. 배터리와 기타 전기설비 간 물리적 공간을 분리하고 배터리실 내 위치한 전력선을 재배치해 구조적 안정성을 확보하라는 내용이다. 화재 등 재난 발생 구역 전력을 개별 차단할 수 있는 방안을 마련하고 현실적인 재난대응 시나리오 개발·수립, 모의훈련 실시 후 결과를 보고하기로 했다.
◆카카오, 복구 지연 원인 ‘미완성된 이중화·핵심 기능 밀집’ =판교 데이터센터 화재로 카카오 주요 서비스는 최대 127시간 33분간 장애를 겪어야 했다. 이는 5일을 넘어서는 기간이다. 장기간 장애 부분에 있어선 카카오 과실도 있다는 점이 조사 결과로 나왔다.
카카오는 서비스 기능을 ▲앱 ▲서비스 플랫폼 ▲운영 및 관리도구 ▲데이터베이스 ▲인프라 설비 레이어 등 5개 레이어로 구분한다. 여기에 판교 데이터센터와 기타 센터 간 ‘동작(Active)-대기(Stanby)’ 체계로 이중화를 했다. 즉 ‘동작’ 서버 작동 불능시 대기중이던 ‘대기’ 서버를 가동하는 방식이다.
판교 데이터센터 동작 서버 작동이 불능됐을 때 서비스 장애 복구가 지연된 건, 이 ‘대기’ 시스템이 제대로 동작하지 않았기 때문이다. 대기 서버를 동작서버로 전환하기 위한 권한관리 기능 ‘운영 및 관리 도구’가 판교 데이터센터 내에서만 이중화돼있을 뿐, 다른 데이터센터엔 이중화돼있지 않았던 게 원인이다.
특히 카카오 인증이나 카카오톡 등 대부분 핵심 기능이 판교 데이터센터에 집중돼있었다는 점이 피해를 키웠다. 장애 탐지·전파·복구 전반에 걸쳐 기본 프로세스를 정의했지만, 각 단계별 체계화 및 자동화가 미흡하단 점도 지적됐다. 일부 서버, 네트워크 등 오류에 대비한 재난대비 훈련 등 조치는 했지만, 1개 데이터센터 전체가 일시 불능이 되는 대형 재난상황에 대해선 대비가 부족한 점도 있었다.
과기정통부 등은 카카오에 ▲서비스 다중화 ▲재난대비 훈련 ▲이용자 고지 및 피해구제 등 크게 3가지 방향으로 시정을 요구했다.
먼저 카카오 서비스 장애 복구 지연 핵심 원인인 ‘운영 및 관리 도구’를 데이터 간 ‘동작(Active)-동작’ 등 높은 수준으로 다중화해야 한다. 카카오인증·카카오톡 등 핵심 기능에 대해선 우선순위, 중요도 등을 고려해 현재보다 높은 수준 분산 및 다중화를 적용할 수 있는 방안을 수립해야 한다.
재난대비 훈련도 강화한다. SK C&C와 마찬가지로 카카오 또한 데이터센터 전소, 네트워크 마비 등 최악의 상황을 대비한 훈련계획을 수립하고 모의 훈련을 실시, 보고해야 한다. 서비스별 복구목표 설정과 상시 대응조직 구성, 장애 시나리오별 복구방안도 수립하도록 지시했다. 장애 탐지·전파·복구 전 단계 자동화가 미흡했던 점은 전 단계 복구체계를 재점검해 자동화 기능 요소를 발굴하기로 했다.
또한 카카오는 서비스 장애 발생 시 다양한 방식으로 신속하게 이용자에게 고지할 수 있는 체계를 구축해야 한다. 이번 사고 발생시 카카오는 긴급공지를 페이스북이나 트위터 등 사회관계망서비스(SNS)로 알려 비판 받은 바 있다. 국민 피해 구제를 위한 보상 계획도 수립해야 한다.
한편, SK C&C 판교 데이터센터 화재로 네이버에서도 일부 서비스 장애가 나타났다. 네이버는 데이터센터 간 이중화 조치로 서비스 중단은 없었지만, 타 데이터센터로 서비스 전환 과정에서 블로그 등 일부 기능에 오류가 발생했다. 단 기능 대부분은 약 20분~12시간 내 정상화됐다. 이에 과기정통부는 네이버에 철저한 장애 예방과 신속 복구를 위해 서비스별 복구 목표, 장애 시나리오별 복구 방안등을 재점검하고 모의훈련을 실시해 보고할 것을 요구했다.