[디지털데일리 이종현기자] 인공지능(AI) 챗봇 서비스 ‘이루다’의 개발사 스캐터랩은 15일 이루다의 데이터베이스(DB)와 이루다 학습에 사용된 딥러닝 대화 모델을 폐기한다고 밝혔다.
이는 이루다 학습에 활용된 데이터가 제대로 된 개인정보 수집 동의를 거치지 않았다는 비판을 의식한 것으로 보인다. 이루다 개발에 사용된 데이터는 ‘연애의 과학’이라는 애플리케이션(앱)을 통해 확보했는데, 이용자가 수집 동의/비동의를 하는 형태가 아닌 ‘고지’ 형태로 해 논란이 야기됐다.
스캐터랩은 “이루다 DB는 비식별화 절차를 거쳐 개별적이고 독립적인 문장 단위로 이뤄져 개인 식별이 가능한 데이터는 포함돼 있지 않다”며 “딥러닝 대화 모델은 비식별화 절차를 거친 데이터를 토대로 대화 패턴만을 학습하고 AI는 데이터를 벡터값으로 기억하기 때문에 개인정보가 유출될 위험이 전혀 없다”고 말했다. 이어서 “그러나 이용자들의 불안감을 고려해 이루다의 DB 전량 및 딥러닝 대화 모델을 폐기하기로 했다”고 부연했다.
스캐터랩은 현재 한국인터넷진흥원(KISA)과 개인정보보호위원회(이하 개인정보위)의 조사를 받고 있다. 조사가 종료되는 즉시 이루다 DB와 딥러닝 대화 모델 폐기를 진행한다는 방침이다.
하지만 업계에서는 스캐터랩의 주장을 신뢰할 수 없다는 시각이 지배적이다. 스캐터랩은 오픈소스 플랫폼 깃허브에 AI 학습 데이터로 카카오톡 대화 1700여건으로 구성된 데이터를 공유했다. 하지만 이중 실명이 포함된 대화 20여건이 포함되며 논란을 키웠다.
비식별 조치를 취한다고 하더라도 100% 완벽할 수는 없다. 수억건 이상의 데이터를 비식별화한다면 몇건 이상의 데이터에는 개인정보가 남을 수 있다. 하지만 1700여건에서 20여건은 납득 가능한 범위를 벗어났다는 것이 업계 공통의 의견이다.
또 개인정보 비식별 조치 가이드라인에서는 비식별 조치 이후 개인정보가 포함됐는지 확인하는 ‘적정성 평가’ 단계도 권고하고 있다. 이루다 사태와 같은 사례를 방지하기 위한 안내가 이미 있음에도 이를 지키지 않은 것 아니냐는 것이 정보보호 업계 관계자의 설명이다.
이루다로 인한 문제가 커짐에 따라 업계는 초긴장 상태다. 정부 정책으로 AI 산업 육성과 데이터 활용에 공을 들이고 있기에 산업 규제로는 이어지지 않을 것이라는 게 업계의 의견이었지만 연이어 새로운 이슈가 발생함에 따라 장담하기 어려운 상황이다.
개인정보보호를 위한 현실적인 안은 강제성이 없는 개인정보 비식별 조치 가이드라인을 의무화하는 것이다. 다만 이 경우 데이터 활용을 위한 절차가 복잡해짐에 따라 산업 발전에는 타격이 갈 수밖에 없다. 디지털 뉴딜을 추진하며 관련 규제 완화를 추진하던 정부로서도 고르기 어려운 선택지다. 정부와 산업계의 고민이 깊어질 수밖에 없는 이유다.