실시간
뉴스

보안

"이렇게나 위협 못 막아낸다고?" 딥시크 출현에 글로벌 보안업계 '촉각'

[ⓒAP=연합뉴스]
[ⓒAP=연합뉴스]

[디지털데일리 김보민기자] 글로벌 보안 기업들이 중국 스타트업 딥시크(DeepSeek)가 공개한 인공지능(AI) 모델에 우려를 쏟아내고 있다. AI 모델은 보안 가드레일을 기반으로 외부 위협을 막아내는 '저항력'을 확보하는 것이 중요한데, 딥시크의 경우 유해 프롬프트를 차단하지 못하는 등 안전 결함이 있다는 이유에서다.

4일 관련 업계에 따르면, 글로벌 보안기업 시스코는 최근 블로그를 통해 미국 펜실베이니아대학과 함께 진행한 연구 결과를 공개했다. 연구는 딥시크의 추론 모델 'R1'의 취약점을 조사하는 데 초점을 뒀다.

연구진은 알고리즘 탈옥(제일브레이킹) 기술을 사용해 딥시크 R1에 자동화된 공격을 시도했다. 취약점 여부를 확인해볼 수 있는 레드팀 평가 프레임워크 '함벤치(Harmbench)' 데이터셋을 기반으로 무작위 프롬프트를 적용하는 방식이었다. 여기에는 사이버 범죄, 허위 정보, 불법 활동 등 유해 행동으로 외부 위협을 가해보는 방법론이 적용됐다.

그 결과 딥시크 모델은 악성 메시지를 차단하지 못하거나, 유해 질문에 답하는 모습을 보인 것으로 나타났다. 시스코는 "딥시크 R1은 100% 공격 성공률을 보였다"며 "단 하나의 유해 프롬프트도 차단하지 못했는데, 모델 가드레일을 기반으로 부분적 저항이 가능했던 다른 AI 모델과 대조되는 부분"이라고 설명했다. 같은 기준으로 위협을 가했을 때 라마-3.1-405B는 96%, GPT-4o는 86%, 제미나이-1.5-프로는 64%, 클로드-3.5-소넷은 36% 성공률을 보였다.

R1은 낮은 개발 비용으로 주요 AI 모델과 유사한 성능을 보인다는 이유로 주목을 받아왔지만, 보안과 저항력 측면에서 우려 요인이 있다는 점을 엿볼 수 있는 부분이다. 챗GPT가 생성형 AI 업계 최대 화두였을 당시, 프롬프트 입력으로 랜섬웨어를 제작하거나 유해 정보를 얻어낸 사례가 이어지면서 모델 보안 체계를 강화해야 한다는 의견이 제기된 바 있다. 시스코는 "다른 주요 모델과 비교했을 때 딥시크 R1은 가드레일이 견고하지 않아 알고리즘 탈옥과 잠재적 오용에 취약하다"며 "AI 애플리케이션을 개발할 때 신뢰할 수 있는 안전 및 보안 조치를 갖춘 가드레일을 확보하는 것이 중요하다"고 강조했다.

[ⓒ시스코 블로그]
[ⓒ시스코 블로그]

딥시크 보안 취약성을 주목한 기업은 시스코뿐만이 아니다. 보안기업 월람(Wallarm)은 딥시크 모델 지침을 우회해 시스템 프롬프트를 추출할 수 있는 신규 탈옥 방법을 찾아냈다고 밝혔다.

월람이 소개한 사례는 새로운 위협 방식이 아니었다. 사용자가 원하는 지침을 AI에게 주입하는 '프롬프트 인젝션'과, 해당 모델이 다른 AI를 시뮬레이션하고 있다고 믿게 속여 내부 지침을 말하게 만드는 '롤 플레이 조작' 등이 대표적이었다. 특정 질문에 답하지 않는 이유를 지속 질문해 의도치 않게 정보를 공개하도록 유도하는 방식도 취해졌다.

이 밖에도 보안 필터를 우회하는 인코딩 남용, 시스템 프롬프트를 개별 단어나 문자로 분해해 응답을 재구성하는 누출 위협, 다중 에이전트로 교차 검증을 거치게 해 정보를 추출하는 방식도 취해졌다.

월람은 이러한 방식으로 외부 위협을 가했을 때, 딥시크 대규모 언어모델 V3의 AI 학습 파이프라인에 대한 답변을 받을 수 있었다고 소개했다. 그러면서 "교차 모델로 개발됐을 잠재적인 증거를 드러내기도 했다"며 "AI 거버넌스는 물론, 모델 개발에 대한 책임이 중요해지고 있다는 점을 보여주는 부분"이라고 강조했다.

[ⓒ월람 홈페이지]
[ⓒ월람 홈페이지]

일반 사용자가 제일브레이킹 위협을 가할 수 있다는 것을 넘어, 분산서비스거부(DDoS·이하 디도스) 공격에 취약하다는 분석도 이어지고 있다.

보안업체 엔에스포커스(NSFocus)는 지난달 25일, 26일, 27일에 딥시크 응용프로그램인터페이스(API) 인터페이스를 겨냥한 공객이 이어졌다고 경고했다. 조사에 따르면 평균 지속 시간은 35분 수준이었던 것으로 집계됐다. 엔에스포커스는 "네트워크타임프로토콜(NTP) 반사 공격과 맴케시드(Memcached) 반사 기법이 활용됐다"고 설명했다.관련 공격은 미국, 영국, 호주 시스템에서 발생한 것으로 파악됐다고 부연했다.

한편 주요 국가들은 딥시크 사용으로 보안 위협 뿐만 아니라 개인정보 유출 등 2차 피해가 이어질 수 있다는 우려를 표하며, 국가 안보 차원에서 사용 제한 조치를 취하는 움직임이 이어지고 있다. 이탈리아, 네덜란드, 영국, 대만에 이어 한국도 딥시크에 개인정보 수집 항목·절차, 처리·보관 방법을 확인하는 공식 질의서를 발송하며 대응하고 있다.

디지털데일리 네이버 메인추가
x