- “전산장애로 하룻동안 셧다운은 아무래도 납득안돼”… 당혹스러운 일본
- 시스템 복잡도의 급격한 증가, 우리도 ‘디지털 리스크’ 대응 필요
[디지털데일리 박기록기자] 지난 1일, 전산장애로 하룻동안 개장을 못했던 도쿄증권거래소가 문제가 됐던 디스크장치 등 장비를 교체한뒤 시스템 재부팅을 거쳐 2일부터 정상 가동에 들어갔다.
3일, 일본 언론들은 도쿄증권거래소가 다시 정상 가동됐다는 점에 안도를 표하면서 차분하게 관련한 후속 보도를 하고 있다.
하지만 이번 사고로 일본의 글로벌 금융허브 강화 전략이 중대한 타격을 받게된 것에 대한 강한 질타와 함께 재발 가능성에 대한 우려도 제기하는 모습이다. 일본 언론들은 이번 셧다운으로 인한 직간접적인 손실을 약 3000억엔(한화 3조원)규모로 추산하고 있다.
특히 아무리 중대한 전산사고라 할지라도 하룻동안 증권거래소가 완전히 셧다운 됐다는 점, 또 이런 비상상황에 대응할 매뉴얼이 없었다는 점에 주목하고 있다. 이번 사고가 전산장애가 아니라 전산참사(慘事)로 표현되는 이유다.
카토 가쓰노부 관방장관은 “철저한 원인규명과 재발방지에 나서겠다”고 밝혔고, 일본 내각의 사이버보안센터(NISC)는 도쿄증권거래소 시스템 장애의 원인 조사에 나섰다. 이와함께 히라이 타쿠야 디지턱개혁장관은 “BCP(업무연속성계획)이 절대적으로 필요하며, BCP를 사회전체로 확보해 나가겠다”는 입장을 밝혔다.
◆도쿄증권거래소(TSE) 전산사고, 심각하게 봐야하는 이유
이번 도쿄증권거래소의 전산사고는 앞선 몇차례의 ‘중대한 사고’와 비교해 몇가지 면에서 성격이 완전히 다르다는 점에 주목해볼 필요가 있다.
먼저, 사고 원인이 여전히 불명확하다는 점이다. 더구나 노후화된 시스템이 아니라 대규모 업그레이드가 1년도 안된 새 시스템에서 발생했다는 점이 곤혹스럽다.
도쿄증권거래소는 과거에도 치명적인 전산사고가 있었다. 당시에는 주문실수, 일시적 주문 폭주, 장중 프로그램 장애 등 직접적이고 명확한 원인이 존재했다.
대표적인 것으로 2005년 11월, 프로그램 오류로 인한 시스템 장애로 거래가 반나절 이상 정지됐고, 이어 그해 12월는 미즈호 증권의 주문 실수를 취소하는 과정에서 장애가 발생했다.
이듬해인 2006년 1월에는 라이브 도어 주식 매매주문이 급증하자 도쿄증권거래소 시스템의 처리능력이 이를 따라가지 못해 자체적으로 전 종목을 강제로 매매를 중지시켜야 했다.
하지만 이번 사고는 장중에 발생한 것이 아니라 장시작전 주식거래정보의 전송 과정에서 발생했으며, 1호기 장애발생시 병렬로 작동해야하는 2호기 서버가 작동하지 않았다. (백업시스템이 작동하지 않았다고 표현하지만 병렬처리시스템과 시스템 다운후 데이터를 살려 가동시키는 백업시스템은 엄밀히 다른 개념이다.)
일본 금융청은 이번 사고의 원인으로 ‘하드웨어 장비’를 지목했다. 하지만 엄밀히 말하면 하드웨어 장비의 장애는 원인이 아니라 결과적으로 나타난 현상일 뿐이다.
무슨 이유로 화드웨어 장애가 발생했는지에 대한 직접적인 원인이 아직 제시되지는 않았으며, 이는 앞으로 일본 금융 당국의 조사를 통해 밝혀져야 한다.
다만 이번 도쿄증권거래소의 전산사고 조사 결과가 향후 공개될지 여부는 불확실하다. 아마도 사안의 특성상 자세하게 공개되지 않을 가능성이 높다. 보안의 문제때문이기도 하겠지만 이미 나타난 결과 자체에 심각한 문제점을 노출하고 있기 때문이다.
먼저, 조사결과 단순한 하드웨어 장애로 판명나게 된다면 일본 금융당국의 BCP(업무연속성계획)에 심각한 허점을 스스로 인정하는 셈이된다. 물론 단순한 하드웨어 장애때문에 하룻동안 도교증권거래소가 셧다운 된다는 것은 현실적으로 납득하기 어렵다.
하드웨어 장애를 포함한 전산장애 발생시, 불과 몇 초만에 거래소시스템을 완전히 정상화로 복귀시키는 것은 2010년 도쿄증권거래소와 후지쯔가 ‘애로우헤드’(Arrowhead)로 명명된 차세대 증권거래시스템을 공동 개발할 때부터 핵심적으로 추구했던 가치였다.
따라서 단순 하드웨어 장애로 도쿄증권거래소의 하루를 통째로 날려버렸다는 것을 인정하게되면 이는 스스로 엄청난 인재(人災)임을 고백하는 것이다.
현실적으로 상정해볼 수 있는 사고의 원인은 ‘데이터(정보)관리 소프트웨어’ 등 데이터를 각 업무서버에 분배하고, 전송하는 미들웨어 관련 소프트웨어 에서의 오류 가능성이다.
도쿄증권거래소는 리눅스 환경에서 구동되는 400여대의 x86 서버를 중심으로 하드웨어를 구성하고 있으며, 여기에 데이터관리 소프트웨어와 데이터전달의 속도를 단축시키기위한 메시징 시스템 등 각 시스템을 연결하는 미들웨어가 가동된다.
특히 도쿄증권거래소는 데이터 분배 및 체결 속도를 기존보다 50% 이상 대폭 향상시키기위해 2019년 11월, ‘에로우헤드’에 대한 대규모의 시스템 업그레이드를 단행한 바 있다. 증권거래소의 체결 속도 단축은 거래소의 경쟁력을 결정짓는 매우 중요한 요소다.
폭증하는 데이터, 개방화됐지만 동시에 복잡도가 증가하는 시스템 환경, 여기에 다양한 증권 업무의 추가로 시스템의 잠재적 불안정성은 커질 수 밖에 없는 상황이다.
만약 이번 사고의 성격이 시스템 복잡도 증가에 따른 소프트웨어적인 사고라면, 시스템 내의 데이터 분배와 전달 체계 등 근본적인 원인을 치유하는데 많은 시간과 자본을 쏟아 부어야 한다. 그렇지 않으면 언제든지 재발할 수 있기 때문이다.
◆국내 금융권도 위기감을 공유해야하는 이유
도쿄증권거래소와 동일한 IT자원으로 구성되지는 않았지만 이번 사고는 국내 금융권이 동일한 위기의식을 공유하면서 바라봐야할 몇가지 이유가 분명히 있다.
국내 금융권은 클라우드 전환을 위해 x86/리눅스 기반의 IT환경으로의 전환을 강하게 추진하고 있으며, 디지털전환(Digital Transformation) 광풍으로 인해 기존 기간시스템위에 업무가 끊임없이 추가되고 있다. 이와 비례해 시스템의 복잡도도 빠르게 증가하고 있다. 넓게 보면, 일본 도쿄증권거래소의 상황과 크게 다르지 않은 상황이다.
현재의 IT트랜드를 고려했을 때, 이러한 ‘알 수 없는 원인’에 의한 전산 장애의 가능성은 앞으로 더 증가할 수 밖에 없다. 특히 디지털화가 강화되면서 우리 금융권도 전산 사고가 발생할 가능성이 높은데 금융 당국은 이를 ‘디지털 리스크’로 정의하고 대응에 나서고 있다.
실제로 금융 감독당국은 올해 2월 발표한, ‘핀테크‧ 디지털금융 혁신과제’에서 금융회사들이 단순 IT리스크 관리에서 벗어나 전사적 관점에서 디지털 운영리스크를 관리할 수 있는 ‘내부통제 거버넌스 확립’을 주문한 바 있다.
이를 위해 금융회사내에 ‘CISO(정보보호최고책임자)의 권한 강화’를 금융권에 주문하고, CISO가 직접 금융회사 주요 회의에 참석하고, 금융보안 관련 중요사항의 이사회 보고 등을 의무화하겠다고 밝힌 바 있다.
하지만 여전히 국내 금융권내에서 CISO의 위상이 제대로 갖춰진 곳은 소수에 불과하고, 그나마도 상당수가 다른 업무와 겸직하는 등 CISO제도가 겉돌고 있다는 비판을 받고 있다.
<박기록 기자>rock@ddaily.co.kr
Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지