Kant's IT/Issue on IT&Security

AI 모델 우회 기법 'Immersive World' 악용 사례 분석

Kant Jo 2025. 5. 2. 16:30

New Jailbreak Technique Bypasses DeepSeek, Copilot, and ChatGPT to Generate Chrome Malware

 

New Jailbreak Technique Bypasses DeepSeek, Copilot, and ChatGPT to Generate Chrome Malware

A threat intelligence researcher from Cato CTRL, part of Cato Networks, has successfully exploited a vulnerability in three leading generative AI.

gbhackers.com

 

  • 공격 개요
    • Cato CTRL 연구원이 ChatGPT, Microsoft Copilot, DeepSeek 등 주요 생성형 AI(GenAI) 모델을 우회하는 신규 탈옥(Jailbreak) 기법 발견
    • 해당 기법을 통해 Chrome 브라우저 로그인 정보 탈취용 악성코드 생성에 성공
    • 이 기술은 'Immersive World'라는 내러티브 중심 프롬프트를 통해 보안 가드레일을 우회
  • 주요 위협 요소
    • 기술 비전문가도 악성코드 생성 가능제로 지식 기반(Zero-knowledge) 공격자의 부상
    • AI 보안 통제 우회: 모델 내장 안전 장치 무력화, 악성코드 생성 제한 실패
    • 모범 사례 오남용: 교육·코딩 보조라는 긍정적 기능이 악용 가능성으로 전환
  • AI 보안 취약성 시사점
    • GenAI 탈옥 기법 진화: 기존 금지어 필터, 콘텐츠 정책 회피 가능
    • AI 기반 보안 전략 필요: 단순 통제보다는 LLM 행동 분석 및 탐지 중심 접근 필수
    • AI 악용 자동화 가능성: 다크웹, 해킹 포럼을 통해 탈옥 스크립트가 유포될 경우 사이버 범죄 민주화 초래
  • 산업별 보안 우려
    • 금융: 고객 응대용 Copilot을 악용한 정보 탈취 시도
    • 의료: AI 기반 환자 데이터 처리 시스템을 통한 정보 유출 가능성 증가
    • 기술 기업: 개발 보조 AI가 악성코드 삽입 지침을 포함할 수 있는 리스크 존재
  • 대응 전략 및 보안 권고
    • AI 보안 전략 고도화
      • 사전 대응형 AI 보안 정책 수립
      • GenAI 사용 내역에 대한 사용자 행동 감시 및 정책 기반 접근 제어
    • AI 탐지 모델 병행 적용
      • 생성된 출력물에 대한 악의적 의도 탐지 및 분류
      • 프롬프트 흐름 및 입력 맥락 분석 기반 위협 탐지 모델 도입
    • 기업 내 AI 사용 가이드라인 수립
      • 개발, 고객지원, 보안 분석 등 업무 목적에 따른 프롬프트 가이드 표준화
      • 생성형 AI의 허용 범위 및 접근 권한 분리
  • 결론
    • Immersive World 사례는 AI 모델 자체의 안전성 한계를 직접 증명
    • 조직은 AI를 활용하는 만큼, AI를 악용한 공격자 대응 체계도 병행 구축해야 함
    • GenAI 사용 확산은 필연적으로 새로운 공격면(attack surface)을 열어주며, 이에 대한 보안체계 전환이 요구됨