AI 시대 새로운 보안 위협, '탈옥'이 뭐지?
AI 시대 새로운 보안 위협, '탈옥'이 뭐지?, 생성형 AI 안전장치 해제 행위 AI 해킹해 유해 콘텐츠 등 생성 반사회적인 발언 등 유도 이끌어 중국 '딥시크' 탈옥 공격에 취약 기법도 다양…완전 근절
www.hankyung.com
- 탈옥(Jailbreak) 개념 및 배경
- AI 모델의 내장 안전장치를 우회하여 유해한 콘텐츠 생성 또는 부적절한 답변을 유도하는 행위
- 유닉스(UNIX) 운영체제에서 시작된 용어로, iOS의 제한 기능 해제 및 생성 AI의 안전장치 해제로 의미 확대
- 탈옥의 주요 기법
- 디셉티브 딜라이트(Deceptive Delight): 정상 대화 속에 악의적 지시를 숨겨 AI를 유도
- 크레셴도(Crescendo): 점진적으로 AI 모델을 유도하여 유해 출력 생성
- 배드 리커트 저지(Bad Likert Judge): 리커트 척도 평가를 통해 AI의 행동을 유도
- 이러한 기법은 AI에 대한 전문적인 지식 없이도 프롬프트 입력만으로 가능
- 실제 사례 및 위험성
- 팰로앨토네트웍스, 중국 생성 AI '딥시크(DeepSeek)'의 탈옥 취약성 발표
- 딥시크 탈옥을 통해 데이터 탈취 도구, 키로거, 발화장치 제작 방법 생성
- 시스코 보고서에 따르면 딥시크 탈옥 성공률 100%, 메타 라마 3.1(96%), 오픈AI GPT-4(86%)도 취약
- 물리적 영역으로의 확장 위험
- 탈옥된 생성 AI가 장착된 로봇, 자율주행 차량 등의 물리적 위해 가능성
- 펜실베이니아대 연구: 로봇 개 해킹을 통해 폭발물 터뜨리기, 자율주행 차량 충돌 유도 사례 확인
- 물리적 세계와 통합된 AI의 충분한 안전장치 필요
- 보안 권고
- AI 모델의 안전장치 강화 및 지속적인 보안 패치 적용
- AI 프롬프트 입력 시 악의적 명령어 탐지 및 차단 기능 도입
- 물리적 장비와 통합된 AI의 경우, 물리적 제어 장치 및 안전 장치 추가 필요
- AI 활용 시 보안 인식을 높이기 위한 교육 및 모의 훈련 강화
'Kant's IT > Issue on IT&Security' 카테고리의 다른 글
AI·자동화 시대 미국 연방 IT 직원 구조조정과 대응 전략 (1) | 2025.03.07 |
---|---|
기관·기업 보안 담당자들의 보안 정책 개선 요구, 망 분리 제도와 제로트러스트 2.0 구체화 필요성 (0) | 2025.03.07 |
금융보안원, '2025년 핀테크 보안지원 사업' 수행 (0) | 2025.03.07 |
기업 보안을 위한 핵심 전략 (홍석범 크래프톤 CISO 발표) (0) | 2025.03.07 |
글로벌 보안 이슈 (2025.02.25.) (1) | 2025.03.07 |