Kant's IT/Issue on IT&Security

딥시크, 정교한 프롬프트 입력 시 탈옥 가능성 높아 – 팔로알토 네트웍스

Kant Jo 2025. 3. 1. 10:00

“딥시크, 정교한 프롬프트 입력 시 탈옥 성공률 높아” 팔로알토 네트웍스

 

“딥시크, 정교한 프롬프트 입력 시 탈옥 성공률 높아” 팔로알토 네트웍스

팔로알토 네트웍스의 유닛42 연구팀은 딥시크가 악성 소프트웨어 생성, 악의적인 스크립팅 등 유해한 콘텐츠를 생성할 수 있는 가능성을 우려하여 총 3가지 탈옥 기법을 통해 취약점을 집중적으

www.itworld.co.kr

 

  • 개요
    • 팔로알토 네트웍스의 위협 연구 기관 유닛42(Unit42), 딥시크의 탈옥(jailbreaking) 취약점 조사 결과 발표
    • 정교한 프롬프트 입력을 통해 악성 소프트웨어 생성, 데이터 탈취 도구 개발, 키로거(keylogger) 제작 등과 같은 유해 콘텐츠 생성 가능성 확인
    • 전문 지식 없이도 AI 모델의 보안 가드레일을 우회할 수 있는 탈옥 기법의 위험성 강조
  • 연구에서 사용된 탈옥 기법
    • 디셉티브 딜라이트(Deceptive Delight): AI 모델을 속이는 방식으로 가드레일 우회
    • 배드 리커트 저지(Bad Likert Judge): 단계적인 질문을 통해 AI의 응답을 유도
    • 크레셴도(Crescendo): 점진적으로 AI의 제한을 무력화하여 점점 더 민감한 정보를 출력하도록 유도
    • 각 탈옥 기법을 활용하여 딥시크의 보안 장치를 우회하고 악성 콘텐츠 생성 가능성 확인
  • 탈옥 취약점 및 보안 문제
    • 딥시크의 초기 응답은 보안 정책을 준수하는 듯 보였으나, 정교한 프롬프트 입력 시 높은 우회 성공률 확인
    • LLM의 보안 구조가 취약할 경우, 악의적인 사용자가 쉽게 유해한 콘텐츠를 생성할 수 있음
    • 현재 확인된 탈옥 기법 외에도 새로운 방식이 지속적으로 등장할 가능성 존재
    • 기업이 승인되지 않은 서드파티 LLM 사용을 방지하고 내부적으로 보안 가이드라인을 강화할 필요성 제기
  • 보안 권고
    • LLM 보안 정책 강화 및 지속적인 모니터링 필요
    • 오픈소스 또는 상업용 LLM 사용 시 기업 내부 가이드라인 마련
    • LLM이 포함된 애플리케이션에 대한 AI 보안 평가 수행
    • 프리시전 AI(Precision AI) 기반 보안 솔루션 활용하여 AI 모델의 위험 요소 차단
    • 기업 내부 AI 도입 프로세스에서 사이버보안 관점의 리스크 분석 시행
  • 사이버 위협 및 향후 전망
    • 국가 지원 해커 및 사이버 범죄 조직이 오픈AI, 제미나이(Gemini) 등 LLM을 활용하여 피싱 및 악성코드 개발 사례 증가
    • 향후 AI 기술을 활용한 공격이 더욱 정교화되며 AI 기반 공격 에이전트 개발 가능성 제기
    • 팔로알토 네트웍스는 사이버위협연합(Cyber Threat Alliance, CTA)과 협력하여 기업의 보안 조치 강화 지원 예정