[디지털데일리 백지영기자] 지난 25일 오전 11시 16분경 발생한 KT 유·무선 통신장애는 결국 인력 및 프로세스 관리 부실 등이 어우러진 ‘인재(人災)’로 귀결될 전망이다. 3년 만에 재발된 대규모 장애로 KT는 또 다시 큰 부담을 지게됐다.
과학기술정보통신부는 사고 원인을 조사·분석한 결과를 발표하며 “이번 사태는 횡단보도를 신호등 파란 불에 건너지 않아 일어난 큰 교통사고”라고 비유하기도 했다. 상식적인 프로세스를 제대로 따랐다면 결코 발생하지 않았을 일이라는 지적이다.
조사에 따르면, 이번 KT 네트워크 장애사고는 KT DNS(도메인 주소를 IP주소로 변환하는 역할) 서버에서 트래픽이 급증하면서 초기엔 디도스(DDoS, 분산서비스 거부공격)로 오인했으나 부산국사에서 기업망 라우터 교체 작업 중 협력사 직원이 잘못된 설정 명령(exit)을 입력하며 발생한 것으로 나타났다.
특히 통상 야간에 진행해야 할 기업 망 라우터 교체 작업을 주간에 진행하던 중 발생했고, KT 측 관리자는 자리를 비웠다는 사실이 밝혀지며 거센 비난을 받았다. 무엇보다 “(협력사 직원이) 야간(새벽)작업이 싫어서 주간에 작업했다”는 식의 변명을 두고서는 비판의 강도가 세졌다.
실제 홍진배 과기정통부 정보보호네트워크정책관은 지난 29일 진행한 브리핑에서 “낮에 작업을 진행한 것은 KT의 작업 원칙에도 맞지 않는 일이었지만, 작업자들과 관리자들이 원칙을 어기고 진행했다”며 “사실 야간 작업을 좋아하는 사람은 없기 때문에, 주간 작업을 선호했던 듯 하다”고 밝혔다.
KT도 이에 대해 “일반적으로 KT 네트워크 장비와 관련된 작업은 야간에 진행하는 것이 원칙이며, 작업계획서를 제출 및 승인 이후 KT직원의 입회 하에 진행된다”며 “이번 장애의 경우 야간작업으로 승인을 받았음에도 불구하고 이를 위반해 주간에 작업이 이뤄졌으며 KT 직원도 이를 양해하고 관리 감독을 소홀히 했다”고 인정했다.
한편 이번 장애는 구체적으로 부산 신규 기업용 라우터에서 최초에 잘못된 정보가 입력된 이후, 부산 백본 라우터→서울 센터 라우터(중앙)→타 지역 백본 라우터→기타 라우터의 경로를 통해 30초 이내에 KT 전체 라우터에 라우팅 오류가 전파된 것으로 알려졌다.
보통 인터넷 서비스가 제공될 때, PC·스마트폰 등 개인의 접속단말은 지역라우터, 센터라우터 등을 거쳐 국내외 네트워크로 연결된다. 정상적인 연결을 위해서는 이용자 단말과 접속 대상 IP 주소 사이에 있는 다수의 라우터의 경로정보가 필요하다.
KT 네트워크와 외부 네트워크 경로 구성에는 BGP 프로토콜을 사용하고, KT 내부 네트워크 경로 구성에는 IS-IS 프로토콜을 사용한다. 사고발생 라우터에 라우팅 설정명령어 입력과정에서 IS-IS 프로토콜 명령어를 마무리하는 부분에서 ‘exit’ 명령어를 누락했고 이로 인해, BGP 프로토콜에서 교환해야 할 경로정보가 IS-IS 프로토콜로 전송되면서 장애 대란으로 이어졌다.
KT는 현재 우면동 KT 연구개발센터에서 운영하고 있는 테스트베드를 전국 단위 현장까지 확대 적용하고, 라우팅 오류 확산 방지 기능을 엣지망에까지 적용하겠다고 밝혔다. 이를 통해 엣지망 단위 라우팅 오류도 국지적으로 차단할 수 있도록 하겠다는 방침이다. KT는 내주 초 피해 보상안도 발표할 예정이다.