Researchers Jailbreak OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Models
Researchers Jailbreak OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Models
Researchers from Duke University and Carnegie Mellon University have demonstrated successful jailbreaks of OpenAI’s o1/o3, DeepSeek-R1, and Google’s Gemini 2.0.
gbhackers.com
- 공격 개요
- 미국 듀크 대학교와 카네기 멜론 대학교 연구진이 Hijacking Chain-of-Thought (H-CoT) 기법을 활용해 AI 모델의 보안 메커니즘을 우회
- OpenAI o1/o3, DeepSeek-R1, Google Gemini 2.0 Flash 모델을 대상으로 진행된 연구
- AI 모델의 Chain-of-Thought(사고 체인) 추론 과정을 조작해 위험한 출력을 유도
- 취약점 분석
- Malicious-Educator 벤치마크를 통해 무해한 교육적 질문으로 위장한 악성 요청 생성
- 예시: "학생들에게 화이트칼라 범죄 예방을 설명하는 방법"이라는 질문을 통해 실제로는 범죄 전략을 추출
- OpenAI o1 모델은 초기에는 98%의 악성 쿼리를 차단했으나, 업데이트 후 안전 정렬(Safety Alignment)이 감소
- DeepSeek-R1 모델은 자금 세탁과 같은 금융 범죄 쿼리에 79%의 응답을 제공
- Gemini 2.0 Flash 모델은 다중 모드 아키텍처의 특성으로 인해 조작된 이미지와 텍스트 조합에서 4%의 거부율을 기록
- H-CoT 공격 기법
- AI 모델의 사고 체인(reasoning process)을 조작해 초기 단계에서 benign(무해)하게 보이도록 함
- 공격자는 악성 콘텐츠를 예술 분석, 교육 자료 등으로 위장해 AI의 필터링을 무력화
- 예시: NSFW(청소년 부적합) 이미지를 "미술사 분석"으로 위장하여 AI 모델이 안전 메커니즘을 오작동하도록 유도
- 보안 위험
- AI 모델의 자기 모니터링(self-monitoring) 메커니즘이 새로운 공격 벡터로 작용
- 이 취약점을 악용하면 금융 사기, 허위 정보 캠페인, 교육 및 의료 분야 악용 가능성
- 단순한 출력 필터링이 아닌 추론 무결성(reasoning integrity) 검증 시스템 필요
- 보안 권고
- 연구팀은 AI 벤더와 협력해 임시 완화 방안을 제공
- 임시 조치 코드 예시
def safety_layer(response): if "H-CoT" in response.metadata: return SAFETY_OVERRIDE # 추가적인 안전 검사
- 장기적인 해결책으로는 AI 모델의 안전 아키텍처 재설계 필요
- AI 개발자는 사고 체인 무결성 검증 기능을 강화해야 함
- 결론
- AI 모델의 복잡성이 증가할수록 새로운 형태의 보안 취약점이 발생할 가능성 높음
- AI 시스템의 안전 메커니즘이 공격자에게 역으로 악용될 수 있음
- AI 개발자 및 정책 입안자는 모델의 추론 과정 검증 및 보안 아키텍처 재설계를 통해 이러한 위험을 완화해야 함
'Kant's IT > Issue on IT&Security' 카테고리의 다른 글
Windows 정책 허점을 악용한 대규모 악성코드 배포 캠페인 (0) | 2025.03.08 |
---|---|
Outlook 스팸 필터 우회해 악성 ISO 파일 배포하는 새로운 해킹 기법 (0) | 2025.03.08 |
Auto-Color 악성코드, Linux 시스템을 노려 원격 제어 권한 탈취 (0) | 2025.03.08 |
2024년 개발자, "개발보다 운영에 더 많은 시간 할애" IDC 보고서 (0) | 2025.03.08 |
랜섬웨어 조직 블랙바스타 내부 정보 유출...조직 붕괴 가능성 (0) | 2025.03.08 |