Kant's IT/Issue on IT&Security

LLM 애플리케이션의 취약점 및 RAG의 역할

Kant Jo 2024. 11. 2. 18:29

LLM 애플리케이션의 가장 치명적인 취약점 10가지와 최근 주목받는 RAG

 

LLM 애플리케이션의 가장 치명적인 취약점 10가지와 최근 주목받는 RAG

미국 오픈AI(Open AI)가 대형 언어 모델(Large Language Model, LLM)을 활용한 인공지능(AI) 챗봇 서비스인 챗GPT(ChatGPT)를 공개한 이후 LLM은 AI 분야의 핵심 기술로 주목받고 있다. 구글의 PaLM, 메타의 LLaMA, 마

www.boannews.com

 

  • LLM의 치명적인 취약점 10가지 (OWASP 기준)
    1. 프롬프트 주입(Prompt Injection): 악의적인 프롬프트를 입력해 LLM이 정책을 벗어나 공격자 의도대로 작동
    2. 불완전한 출력 처리(Insecure Output Handling): 검증 없이 생성된 출력이 다른 시스템으로 전달돼 원격 코드 실행 위협 발생
    3. 학습 데이터 중독(Training Data Poisoning): 사전 학습 데이터를 조작해 모델 성능 저하 및 보안성 손상
    4. 모델 서비스 거부(Model Denial of Service): 대량 리소스 소모로 서비스 품질 저하 및 비용 증가
    5. 공급망 취약점(Supply Chain Vulnerabilities): LLM 공급망 관리가 어려워 소프트웨어 공급망 취약점과 유사한 위협 발생
    6. 민감 정보 노출(Sensitive Information Disclosure): LLM의 답변을 통해 개인정보 또는 민감한 정보가 유출될 위험
    7. 불완전 플러그인 설계(Insecure Plugin Design): LLM 플러그인 사용 시 원격 코드 실행 등의 위협 발생 가능
    8. 과도한 에이전시(Excessive Agency): LLM 에이전트가 해로운 작업을 수행할 수 있는 권한 남용
    9. 과도한 의존(Overreliance): LLM이 환각 현상을 일으키며 잘못된 정보 제공
    10. 모델 도난(Model Theft): 공격자가 LLM 모델을 무단으로 접근하거나 유출할 위험
  • RAG(Retrieval-Augmented Generation)의 역할
    • RAGLLM답변 생성 전외부 데이터 소스를 참조하여 정확도를 높이는 방식
    • LLM이 학습하지 않은 질문에도 외부 데이터를 활용정확한 답변을 생성할 수 있도록 함
    • 환각 현상을 줄이고, 도메인 특화 데이터를 기반으로 더욱 정밀한 답변 생성 가능
  • RAG의 작동 방식
    1. 외부 데이터 생성: API, 데이터베이스, 문서 등 다양한 소스에서 데이터를 수집하여 임베딩 후 벡터 DB에 저장
    2. 관련 정보 검색: 사용자 프롬프트를 벡터로 인코딩하여 관련 정보를 벡터 DB에서 검색
    3. LLM 프롬프트 확장: 검색된 데이터를 추가해 LLM이 답변을 생성할 수 있도록 프롬프트 보강
    4. 외부 데이터 업데이트: 문서를 비동기적으로 업데이트해 최신 정보를 반영
  • RAG와 파인튜닝의 차이점
    • RAG는 최신 데이터를 제공하며 출처가 명확한 정보에 기반해 답변을 생성
    • 파인튜닝특정 도메인에 맞춰 LLM을 맞춤형으로 업데이트하는 방식
  • 결론
    • LLM 애플리케이션의 취약점은 보안 및 데이터 무결성에 중요한 영향을 미치므로 RAG와 같은 기술을 통해 정확도와 신뢰성을 높여야 함
    • 기업AI 기반 생산성을 극대화하기 위해 RAG 기술을 수용하고 데이터 관리를 강화