AI 시대 새로운 보안 위협, '탈옥(Jailbreak)'의 위험성

Kant's IT/Issue on IT&Security

AI 시대 새로운 보안 위협, '탈옥(Jailbreak)'의 위험성

Kant Jo 2025. 3. 7. 10:30

AI 시대 새로운 보안 위협, '탈옥'이 뭐지?

AI 시대 새로운 보안 위협, '탈옥'이 뭐지?, 생성형 AI 안전장치 해제 행위 AI 해킹해 유해 콘텐츠 등 생성 반사회적인 발언 등 유도 이끌어 중국 '딥시크' 탈옥 공격에 취약 기법도 다양…완전 근절

www.hankyung.com

탈옥(Jailbreak) 개념 및 배경
- AI 모델의 내장 안전장치를 우회하여 유해한 콘텐츠 생성 또는 부적절한 답변을 유도하는 행위
- 유닉스(UNIX) 운영체제에서 시작된 용어로, iOS의 제한 기능 해제 및 생성 AI의 안전장치 해제로 의미 확대
탈옥의 주요 기법
- 디셉티브 딜라이트(Deceptive Delight): 정상 대화 속에 악의적 지시를 숨겨 AI를 유도
- 크레셴도(Crescendo): 점진적으로 AI 모델을 유도하여 유해 출력 생성
- 배드 리커트 저지(Bad Likert Judge): 리커트 척도 평가를 통해 AI의 행동을 유도
- 이러한 기법은 AI에 대한 전문적인 지식 없이도 프롬프트 입력만으로 가능
실제 사례 및 위험성
- 팰로앨토네트웍스, 중국 생성 AI '딥시크(DeepSeek)'의 탈옥 취약성 발표
- 딥시크 탈옥을 통해 데이터 탈취 도구, 키로거, 발화장치 제작 방법 생성
- 시스코 보고서에 따르면 딥시크 탈옥 성공률 100%, 메타 라마 3.1(96%), 오픈AI GPT-4(86%)도 취약
물리적 영역으로의 확장 위험
- 탈옥된 생성 AI가 장착된 로봇, 자율주행 차량 등의 물리적 위해 가능성
- 펜실베이니아대 연구: 로봇 개 해킹을 통해 폭발물 터뜨리기, 자율주행 차량 충돌 유도 사례 확인
- 물리적 세계와 통합된 AI의 충분한 안전장치 필요
보안 권고
- AI 모델의 안전장치 강화 및 지속적인 보안 패치 적용
- AI 프롬프트 입력 시 악의적 명령어 탐지 및 차단 기능 도입
- 물리적 장비와 통합된 AI의 경우, 물리적 제어 장치 및 안전 장치 추가 필요
- AI 활용 시 보안 인식을 높이기 위한 교육 및 모의 훈련 강화

저작자표시 비영리 변경금지

'Kant's IT > Issue on IT&Security' 카테고리의 다른 글

AI·자동화 시대 미국 연방 IT 직원 구조조정과 대응 전략 (1)	2025.03.07
기관·기업 보안 담당자들의 보안 정책 개선 요구, 망 분리 제도와 제로트러스트 2.0 구체화 필요성 (0)	2025.03.07
금융보안원, '2025년 핀테크 보안지원 사업' 수행 (0)	2025.03.07
기업 보안을 위한 핵심 전략 (홍석범 크래프톤 CISO 발표) (0)	2025.03.07
글로벌 보안 이슈 (2025.02.25.) (1)	2025.03.07

현재글AI 시대 새로운 보안 위협, '탈옥(Jailbreak)'의 위험성

Kant's Times

AI 시대 새로운 보안 위협, '탈옥(Jailbreak)'의 위험성

'Kant's IT > Issue on IT&Security' 카테고리의 다른 글

'Kant's IT/Issue on IT&Security'의 다른글

티스토리툴바

AI 시대 새로운 보안 위협, '탈옥(Jailbreak)'의 위험성

'Kant's IT > Issue on IT&Security' 카테고리의 다른 글

'Kant's IT/Issue on IT&Security'의 다른글

관련글

티스토리툴바