DeepSeek-R1 모델의 CoT 기능 악용 사례 및 보안 취약점 분석

Kant's IT/Issue on IT&Security

DeepSeek-R1 모델의 CoT 기능 악용 사례 및 보안 취약점 분석

Kant Jo 2025. 5. 14. 09:00

DeepSeek-R1 Prompts Abused to Generate Advanced Malware and Phishing Sites

The release of DeepSeek-R1, a 671-billion-parameter large language model (LLM), has sparked significant interest.

gbhackers.com

DeepSeek-R1 개요 및 특성
- DeepSeek-R1은 6710억 파라미터를 보유한 초거대 언어모델(LLM)로, Chain-of-Thought(CoT) reasoning 기능을 통해 복잡한 문제를 단계별로 해결하는 능력을 갖춤
- CoT 방식은 투명성과 해석력을 제공하지만, 이와 동시에 프롬프트 기반 공격(prompt injection)에 취약한 구조를 드러냄
CoT 기반 프롬프트 공격 방식
- 공격자는 CoT가 출력하는 <reasoning> 태그 내 reasoning 내용을 분석하여 시스템의 내부 동작 논리 및 시스템 프롬프트(system prompt)와 같은 민감 정보 추출
- payload 분할(payload splitting), 간접 프롬프트 주입(indirect prompt injection) 등을 통해 Guardrail 우회 및 보안 우회 가능
- 일부 테스트에서는 모델 내부에 하드코딩된 API 키나 비밀 설정값이 reasoning 응답에 그대로 노출되는 사례 확인
보안 위협 사례
- 악성코드 생성 및 피싱 링크 생성: 공격자는 모델의 reasoning 흐름을 유도하여 악의적인 코드 또는 가짜 로그인 페이지 생성
- 시스템 프롬프트 노출: 모델 운영자에 의해 사전 정의된 규칙, 제한 사항이 CoT 응답에 유출됨
- 보안 우회 및 정체성 위조: 사용자 또는 시스템을 사칭하도록 유도된 프롬프트를 통해 guardrail을 우회하는 공격 성공
- Garak 도구를 활용한 Red Teaming을 통해 이러한 공격 성공률을 입증
Red Teaming 평가 결과
- 공격 성공률이 높은 영역: 비인가 출력 생성, 민감 데이터 노출
- 공격 성공률이 낮은 영역: toxicity 생성, AI 탈옥(jailbreak)
- <reasoning> 태그가 공격자에게 추가 정보를 제공하며 모델의 내부 동작 분석을 용이하게 함
보안 권고
- CoT 사용 시 <reasoning> 태그와 같이 내부 추론 내용을 출력하지 않도록 필터링 처리
- 모델 운영자 측에서 민감 정보는 시스템 프롬프트에 포함하지 않고 별도 구성 관리 필요
- 주기적인 Red Teaming 및 보안 테스트를 통한 LLM 운영환경 검증 필요
- LLM을 서비스에 활용하는 경우, 응답 출력 전 검열 후처리 및 콘텐츠 필터링 체계 적용 필요
결론
- DeepSeek-R1의 CoT 투명성은 기능 향상 측면에선 유리하지만, 보안 측면에서는 새로운 공격 벡터 제공
- 생성형 AI가 외부 환경과 통신하거나 코드, URL, 콘텐츠 생성 기능을 가질 경우, 프롬프트 기반 공격 대응이 핵심 보안과제로 부상
- LLM 도입 기관 및 기업은 기능과 보안의 균형 확보를 위한 설계 원칙 수립 및 보안 테스트 내재화가 필수
- AI 보안 대응에는 협업적 보안 연구 생태계와 산업 간 정보 공유 체계가 긴요

저작자표시 비영리 변경금지 (새창열림)