Kant's IT/Issue on IT&Security

LLM 기반 추출 모델의 보안 위협

Kant Jo 2025. 5. 12. 10:30

LLM을 학습한 추출 모델, 작아도 위험은 동일

 

LLM을 학습한 추출 모델, 작아도 위험은 동일

대형 언어 모델(LLM)이 주류가 되면서 AI 기반 애플리케이션의 범위가 한층 더 확장되고, 그만큼복잡성도 늘었다. 물론 대가도 따른다.

www.itworld.co.kr

 

  • 모델 추출 개념 및 활용
    • 추출 모델은 대형 언어 모델(LLM)의 복잡성을 줄이면서도 주요 기능을 모방하는 소형 모델
    • 교사 모델의 결과 및 행동 양식을 기반으로 학생 모델을 훈련해 비용 효율성과 추론 속도 개선 가능
    • 주로 특정 목적(domain-specific)에 최적화된 경량 모델로 활용됨
  • 보안 위협 상속 및 모델 반전 위험
    • 추출 모델은 교사 모델의 학습 데이터를 포함한 보안 취약점까지 그대로 상속
    • 지적재산권 침해, 개인 식별 정보(PII) 유출, 모델 반전(model inversion) 공격에 노출될 수 있음
    • GPT-2와 디스틸GPT-2 사례처럼 환각(hallucination), 편향, 보안 결함이 그대로 복제됨
  • 모델 크기 축소에 따른 환각 및 오류 증가
    • 추출된 소형 모델은 교사 모델의 맥락적 뉘앙스를 완벽히 포착하지 못해 오류 또는 과도한 단순화 발생
    • 환각된 출력 결과가 사회적 선동, 피싱, 허위 정보 유포에 악용될 수 있음
    • 웜GPT 사례는 공격자가 악성 목적의 훈련 데이터를 활용해 사기성 콘텐츠 생성에 성공한 예시
  • 모델 추출 공격 가능성
    • 공격자가 추출 모델을 이용해 결정 경계를 역설계하고 기능적으로 유사한 모델을 재현 가능
    • 확률 분포(soft label)를 기반으로 한 정제(distillation) 방식은 기능 복제를 더욱 용이하게 함
    • 추출된 모델은 원본 모델의 보안 제어 우회를 위해 조작될 수 있으며, 이 경우 백도어 삽입 및 특정 입력 우회 등 위협 발생
  • 사고 대응 및 가시성 저하
    • 추출 모델은 LLM 대비 로그 및 의사결정 경로 정보가 제한되어 사고 대응과 원인 분석이 어려움
    • 보안팀은 내부 추적보다 외부 모니터링 도구에 의존할 수밖에 없는 구조로 전환됨
  • 보안 권고
    • 신뢰 기반 설계(Zero Trust AI) 필요: 데이터 접근, 인증, 모델 사용 권한을 정교하게 통제
    • 모델 가드레일 의존도 최소화: 다층 방어, AI 보안 정책 기반의 통합 제어 체계 도입
    • 모델 추출 탐지 및 방어 기술 적용: API 호출 이상 탐지, 출력 패턴 분석, watermark 삽입 등 기술 개발 필요
  • 결론
    • 추출 모델의 보안 위협은 단순 경량화 문제가 아니라, LLM의 위험을 농축한 형태로 봐야 함
    • AI 개발자와 보안팀은 모델 재사용 시 보안성 검증, 행동 모니터링, 보안 설계 원칙을 강화해야 하며
    • 향후 AI 거버넌스 체계에는 추출 모델을 포함한 AI 파생 모델 전반에 대한 감시 및 규제 기준이 포함되어야 함