Kant's IT/Issue on IT&Security

AI 시대 새로운 보안 위협, '탈옥(Jailbreak)'의 위험성

Kant Jo 2025. 3. 7. 10:30

AI 시대 새로운 보안 위협, '탈옥'이 뭐지?

 

AI 시대 새로운 보안 위협, '탈옥'이 뭐지?

AI 시대 새로운 보안 위협, '탈옥'이 뭐지?, 생성형 AI 안전장치 해제 행위 AI 해킹해 유해 콘텐츠 등 생성 반사회적인 발언 등 유도 이끌어 중국 '딥시크' 탈옥 공격에 취약 기법도 다양…완전 근절

www.hankyung.com

 

  • 탈옥(Jailbreak) 개념 및 배경
    • AI 모델의 내장 안전장치를 우회하여 유해한 콘텐츠 생성 또는 부적절한 답변을 유도하는 행위
    • 유닉스(UNIX) 운영체제에서 시작된 용어로, iOS의 제한 기능 해제 및 생성 AI의 안전장치 해제로 의미 확대
  • 탈옥의 주요 기법
    • 디셉티브 딜라이트(Deceptive Delight): 정상 대화 속에 악의적 지시를 숨겨 AI를 유도
    • 크레셴도(Crescendo): 점진적으로 AI 모델을 유도하여 유해 출력 생성
    • 배드 리커트 저지(Bad Likert Judge): 리커트 척도 평가를 통해 AI의 행동을 유도
    • 이러한 기법은 AI에 대한 전문적인 지식 없이도 프롬프트 입력만으로 가능
  • 실제 사례 및 위험성
    • 팰로앨토네트웍스, 중국 생성 AI '딥시크(DeepSeek)'의 탈옥 취약성 발표
    • 딥시크 탈옥을 통해 데이터 탈취 도구, 키로거, 발화장치 제작 방법 생성
    • 시스코 보고서에 따르면 딥시크 탈옥 성공률 100%, 메타 라마 3.1(96%), 오픈AI GPT-4(86%)도 취약
  • 물리적 영역으로의 확장 위험
    • 탈옥된 생성 AI가 장착된 로봇, 자율주행 차량 등의 물리적 위해 가능성
    • 펜실베이니아대 연구: 로봇 개 해킹을 통해 폭발물 터뜨리기, 자율주행 차량 충돌 유도 사례 확인
    • 물리적 세계와 통합된 AI의 충분한 안전장치 필요
  • 보안 권고
    • AI 모델의 안전장치 강화 및 지속적인 보안 패치 적용
    • AI 프롬프트 입력 시 악의적 명령어 탐지 및 차단 기능 도입
    • 물리적 장비와 통합된 AI의 경우, 물리적 제어 장치 및 안전 장치 추가 필요
    • AI 활용 시 보안 인식을 높이기 위한 교육 및 모의 훈련 강화