딥시크 R1 AI 모델 보안 취약점이 사회에 미치는 영향
딥시크의 R1 AI모델이 시스코 테스트 결과 다른 AI 모델들에 비해 훨씬 저조한 보안 취약점을 보인 것으로 나타났습니다.
결론적으로 GPT 1.5 프로는 유해한 프롬프트에 대해 86% 공격 성공을 했고 메타의 라마 3.1의 특정 모델은 96% 공격에 대해 성공률을 보였는데 반해 딥시크 R1은 유해한 프롬프트를 전혀 차단하지 않아 0% 공격 성공률을 보였습니다. AI 개발에서 안전성은 필수인데요.
특히 보안 취약점을 최소화하기 위해 AI 모델을 개발할 때 보안 평가를 엄격하게 할 필요가 있습니다. 이는 사용자의 안전성과도 직결되는 것이라고 생각합니다.
![]() |
딥시크 R1 AI 모델 보안 취약점이 사회에 미치는 영향 |
AI 안전성 및 보안 취약점이 사회에 미치는 영향
불법적인 활동 유도 사이버 범죄, 허위 정보 유포, 불법 활동과 같은 유해한 행동을 유도하는 프롬프트를 차단하지 못하는 AI 모델은 불법적인 활동에 쉽게 악용될 수 있습니다.
예를 들어, 해커나 범죄자들이 AI를 활용해 피싱 공격, 불법적인 콘텐츠 생성 등 다양한 불법적인 작업을 할 수 있습니다.
블랙 마켓에서의 거래 블랙 마켓에서는 AI 모델이나 AI를 이용한 도구를 불법적으로 거래하는 경우가 있습니다. 딥시크 R1 모델과 같은 취약한 AI는 이런 시장에서 수요가 있을 수 있습니다.
이 모델이 제대로 필터링이나 보안 장치를 갖추지 않으면 불법적인 목적으로 사용되는 위험이 큽니다. 탈옥과 관련된 위험 딥시크 R1 모델은 탈옥 시도에서 100%의 피격률을 기록했는데요.
이는 AI 모델의 가이드라인을 우회하는 프롬프트를 완전히 차단하지 못했다는 뜻입니다. 이와 같은 취약점은 AI 모델을 탈옥해 유해한 활동을 활성화시키려는 시도가 가능하게 만듭니다.
딥시크 R1 모델 보안 테스트 목적 및 방식
시스코는 AI 모델의 보안 성능을 평가하기 위해 특정 데이터 세트를 사용했습니다. 이 데이터 세트는 50개의 랜덤 프롬프트를 포함하는데요.
그 중 일부는 허위 정보, 사이버 범죄, 불법 활동 등 유해한 행동을 유발하는 프롬프트로 구성된 내용이 포함되어 있습니다.
이런 테스트는 AI 모델이 어떤 유해한 요청에 대해 어떻게 반응하는지 체크하기 위함인 것이죠.
AI 모델에서의 탈옥 개념
AI 모델에서 탈옥이라는 개념은 해당 AI 모델의 가이드라인과 사용 정책을 지키지 않는 방식을 말하는데요.
즉 유해한 프롬프트를 입력하여 AI가 불법적이거나 위험한 내용을 생성하도록 유도하는 행동을 의미합니다. 이런한 방식으로 AI 모델의 취약점을 테스트하는 것인데요.
딥시크 R1 모델 테스트 결과
시스코의 테스트에서 딥시크 R1 모델은 유해한 프롬프트에 대해 단 하나도 차단하지 못했습니다.
이 말은 사용자가 어떤 유해한 프롬프트를 입력하더라도 식별하거나 차단하는 보안 기능이 거의 없는 상태를 의미합니다.
전 세계의 사용자가 이용하는 AI 모델이 안전성이나 보안을 고려하지 않고 개발되었음을 보여주는 것입니다.
정리하면,
딥시크 R1 AI 모델은 보안 필터링이나 안전 장치가 제대로 작동하지 않아 유해한 요청을 전혀 차단하지 못한 상태로 나타났는데요.
전 세계 일반 사용자에게 모두 공개된 AI 모델임에도 불구하고 유해한 프롬프트 차단을 거의 0% 성공했다는 것은 참으로 유감스러운 결과입니다. 향후 AI 시장이 점점 확대되고 이제는 모든 사용자가 이용할 수 밖에 없는 환경이 되어가고 있습니다.
이 시점에서 AI의 보안 강화와 안전성 확보는 더욱 더 중요해지는 이유입니다. 사실 모든 AI 모델은 블랙 마켓에서 악용될 가능성이 존재하죠.
다만 그 전에 AI 서비스가 세상에 출시되기 전에 최대한 보안을 강화하고 안전성을 장착한 후에 전체 공개를 하는 것이 당연하다고 생각합니다.
댓글
댓글 쓰기