[디지털데일리 이상일기자] 카카오의 주요 서비스가 멈춰섰다. SK(주)C&C 판교 데이터센터에 입주해 있는 3만2000여대의 서버의 화재에 의한 전원공급 차단으로 인해 정상 서비스까지 시간이 소요될 전망이다.
카카오는 15일 카카오 서비스 장애가 발생한 지 약 6시간만에 남궁훈·홍은택 카카오 각자대표가 공식 사과하며 고개를 숙였다.
하지만 이 날 해명에는 이상한 점이 있다. 이들은 “이번 화재가 발생한 직후, 카카오는 해당 사실을 인지하고 즉시 이원화 조치 적용을 시작했다”면서도 “이번과 같이 데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황으로, 해당 조치를 적용하는데 예상보다 오랜 시간이 소요되고 있다”고 설명했다.
IT업계에선 이러한 카카오의 해명에 대해 기본적인 백업(DR), 데이터 원격지 소산, 업무 연속성 계획(BCP)에 대한 기본적인 이해 없이 책임을 미루는듯한 뉘앙스를 풍기고 있다고 지적한다.
특히 ‘데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황’이라는 해명에 대해 한 IT 업계 관계자는 “백업 체계 및 BCP 마련이 이러한 사고를 전제로 한 계획인데 마치 하나의 데이터센터가 장애가 났다고 시간이 소요됐다고 얘기하는 것은 평소 백업에 대한 카카오의 생각을 반영하는 것”이라고 지적했다.
실제 업계에선 이번 사고를 통해 카카오의 백업 체계를 들여다 봐야 한다는 주장도 나온다.
카카오는 해명을 통해 “모든 데이터를 국내 여러 데이터센터에 분할 저장하는 이원화 시스템을 갖추고 있다”고 밝힌 바 있다. 하지만 분할 저장 이원화 시스템과 재해복구(DR) 시스템은 개념 자체가 다르다. 즉 카카오 스스로 DR시스템 부재를 드러낸 것이 아니냐는 지적이 제기되고 있다.
DR시스템이 있다 해도 국민 대표 메신저인 카카오톡의 경우 재해복구 체계를 어느 정도의 등급으로 설정했는지 따져봐야 한다는 지적도 나온다. 통상 재해복구 계약은 가장 높은 등급은 실시간 백업부터, 특정 시간대 백업, 주단위 백업, 한달 단위 백업 등 세분화되어 있다.
이번 사고와 같이 전원 차단으로 인해 전체 서비스가 셧다운 된 경우 실시간 백업보다는 시간단위, 혹은 주단위 백업으로 계약이 되어 있을 것이란 전망도 나온다.
16일 진행된 이종호 과학기술정보통신부(과기정통부) 장관 주재 데이터센터 화재 현장 점검 간담회에서 카카오 양현서 부사장의 답변도 석연치 않다.
양 부사장은 재해복구의 기본 원칙인 전산센터 분산 운영과 관련해 “안양, 판교 등 데이터센터가 분산 운영되고 있고 (재해복구와 관련해)할 수 있는 시나리오를 다 세웠는데, 화재가 나서 서버 전체가 내려가는 부분은 대비가 부족했다”고 밝혔다.
하지만 재해복구와 관련해 화재에 대한 서버 다운은 기본적인 체크리스트에 속한다. 실제 금융권에서 매년 진행하는 전산마비 상황에 대비한 업무연속성계획(BCP·Business Continuity Planning) 훈련에는 화재발생으로 인한 전산마비 상황에 대비한 내용이 필수로 포함돼있다.
업계의 한 관계자는 “재해복구라는 말 안에 화재, 지진 등 천재지변이 포함돼있으며 이로 인한 서버 다운, 대규모 정전 등을 상정해 도입하는 것”이라며 “화재로 인한 전체 서버 다운에 준비가 없었다는 것은 기본적으로 재해복구에 대한 준비 자체가 없었다는 뜻”이라고 꼬집기도 했다.