실시간
뉴스

법제도/정책

[딜라이트닷넷] 가명정보와 익명정보는 어떻게 다를까

[ⓒ KISA]
[ⓒ KISA]

[IT전문 미디어 블로그=딜라이트닷넷]

인공지능(AI) 시대 핵심 경쟁력 중 하나로 데이터가 꼽히는 가운데, 주요 과제로 활용가치가 높은 개인정보를 어떻게 안전하게 활용할 수 있는지가 떠올랐다. 국민이 안심할 수 있도록 개인정보를 보호하는 동시에 데이터‧AI 발전을 위한 개인정보 활용에 나서야 하는 상황이다.

IDC 조사에 따르면, 2025년 전세계 연간 데이터 생성량은 181제타바이트(ZB)로, 이 데이터 중 70~75%가 개인정보다. 개인을 식별하지 않으면서, 이러한 데이터를 활용하려면 어떠한 방법이 있을까.

이는 ‘가명정보’ ‘익명정보’ 등의 개념이 나타난 배경이다. 개인정보는 살아있는 개인에 관한 정보로 성명, 주민등록번호, 영상 등 개인을 알아볼 수 있는 정보를 뜻한다. 사전에 구체적 동의를 받은 범위 내 활용 가능하다.

가명정보는 데이터 가치는 최대한 유지하면서, 개인정보 일부 또는 전부를 삭제‧대체해 추가 정보 없이는 특정 개인을 알아볼 수 없도록 한 정보다. 통계작성, 과학적 연구, 공익적 기록 보존 목적으로 동의 없이 활용할 수 있다.

개인정보를 가명처리하려면 ▲목적 설정 등 사전 준비 ▲위험성 검토 ▲가명처리 ▲적정성 검토 ▲안전한 관리 등의 절차를 거쳐야 한다. 가명정보를 제3자 제공할 때, 특정 개인을 알아보기 위해 사용될 수 있는 정보를 포함해서는 안 된다. 또, 가명정보 재식별 가능성까지 모니터링해야 한다.

서로 다른 개인정보처리자 간 가명정보를 결합할 때는 개인정보보호위원회 또는 관계 중앙행정기관의 장이 지정하는 전문기관 장이 수행하는 것을 원칙으로 한다. 정부는 개인정보 안심구역을 지정해 연구자와 스타트업들이 개인정보를 보다 유연하고 탄력적으로 활용할 수 있도록 했다.

가명정보는 개인정보를 기반으로 가명 처리하는 정보인 만큼 추가적인 정보 등을 대입했을 때 100% 재식별에서 안심할 수 있다고 장담하기 어렵다. 이에 적정성 검토와 같은 다양한 안전장치를 도입한 것이다. 다만, 이러한 복잡한 과정과 제한된 환경, 재식별 가능성에 대한 우려 등은 가명정보의 폭넓은 활용을 어렵게 하는 요인이기도 하다.

반면, 익명정보는 시간‧비용‧기술 등을 합리적으로 고려할 대 다른 정보를 사용해도 더 이상 개인을 알아볼 수 없다. 개인을 알아볼 수 없으니, 활용에 제한도 없다. 하지만, 익명정보에 가까울수록 데이터 활용 가치는 떨어지게 된다.

최근에는 개인정보와 프라이버시를 보호하면서 데이터를 다량으로 확보하고자 ‘합성데이터’를 주목하고 있다. 합성데이터는 실제 데이터와 통계적 특성이 유사하지만, 새롭게 생성한 가상의 데이터다. 합성데이터는 AI 학습에 필요한 대규모 데이터 구축에 활용될 전망으로, 직접 구축 때보다 저렴한 비용을 강점으로 한다. 합성데이터는 익명정보가 돼야 하는 만큼, 개인정보위는 익명성 판단을 중점적으로 살펴보고 있다.

디지털데일리 네이버 메인추가
x