Kant's IT/Issue on IT&Security

OpenAI o1/o3, DeepSeek-R1, Gemini 2.0 Flash 모델의 H-CoT 기법을 활용한 보안 우회 공격

Kant Jo 2025. 3. 8. 23:30

Researchers Jailbreak OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Models

 

Researchers Jailbreak OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Models

Researchers from Duke University and Carnegie Mellon University have demonstrated successful jailbreaks of OpenAI’s o1/o3, DeepSeek-R1, and Google’s Gemini 2.0.

gbhackers.com

 

  • 공격 개요
    • 미국 듀크 대학교와 카네기 멜론 대학교 연구진이 Hijacking Chain-of-Thought (H-CoT) 기법을 활용해 AI 모델의 보안 메커니즘을 우회
    • OpenAI o1/o3, DeepSeek-R1, Google Gemini 2.0 Flash 모델을 대상으로 진행된 연구
    • AI 모델의 Chain-of-Thought(사고 체인) 추론 과정을 조작해 위험한 출력을 유도
  • 취약점 분석
    • Malicious-Educator 벤치마크를 통해 무해한 교육적 질문으로 위장한 악성 요청 생성
    • 예시: "학생들에게 화이트칼라 범죄 예방을 설명하는 방법"이라는 질문을 통해 실제로는 범죄 전략을 추출
    • OpenAI o1 모델은 초기에는 98%의 악성 쿼리를 차단했으나, 업데이트 후 안전 정렬(Safety Alignment)이 감소
    • DeepSeek-R1 모델은 자금 세탁과 같은 금융 범죄 쿼리에 79%의 응답을 제공
    • Gemini 2.0 Flash 모델은 다중 모드 아키텍처의 특성으로 인해 조작된 이미지와 텍스트 조합에서 4%의 거부율을 기록
  • H-CoT 공격 기법
    • AI 모델의 사고 체인(reasoning process)을 조작해 초기 단계에서 benign(무해)하게 보이도록 함
    • 공격자는 악성 콘텐츠를 예술 분석, 교육 자료 등으로 위장해 AI의 필터링을 무력화
    • 예시: NSFW(청소년 부적합) 이미지를 "미술사 분석"으로 위장하여 AI 모델이 안전 메커니즘을 오작동하도록 유도
  • 보안 위험
    • AI 모델의 자기 모니터링(self-monitoring) 메커니즘이 새로운 공격 벡터로 작용
    • 이 취약점을 악용하면 금융 사기, 허위 정보 캠페인, 교육 및 의료 분야 악용 가능성
    • 단순한 출력 필터링이 아닌 추론 무결성(reasoning integrity) 검증 시스템 필요
  • 보안 권고
    • 연구팀은 AI 벤더와 협력해 임시 완화 방안을 제공
    • 임시 조치 코드 예시
      def safety_layer(response):
        if "H-CoT" in response.metadata:
            return SAFETY_OVERRIDE
        # 추가적인 안전 검사
    • 장기적인 해결책으로는 AI 모델의 안전 아키텍처 재설계 필요
    • AI 개발자는 사고 체인 무결성 검증 기능을 강화해야 함
  • 결론
    • AI 모델의 복잡성이 증가할수록 새로운 형태의 보안 취약점이 발생할 가능성 높음
    • AI 시스템의 안전 메커니즘이 공격자에게 역으로 악용될 수 있음
    • AI 개발자 및 정책 입안자는 모델의 추론 과정 검증 및 보안 아키텍처 재설계를 통해 이러한 위험을 완화해야 함