Kant's IT/Issue on IT&Security

LLM 학습 데이터에서 1만 2천 개 이상 API 키 및 비밀번호 노출 확인

Kant Jo 2025. 3. 17. 07:20

LLM 학습 데이터에서 1만2천개 이상 API 키 및 비밀번호 노출 확인 - 데일리시큐

 

LLM 학습 데이터에서 1만2천개 이상 API 키 및 비밀번호 노출 확인 - 데일리시큐

최근 보안 연구진이 거대 언어 모델(LLM) 학습에 사용되는 데이터셋에서 약 1만2천개의 활성 API 키와 비밀번호가 포함된 사실을 발견했다. 이 조사 결과는 AI 학습 과정에서 보안이 제대로 관리되

www.dailysecu.com

 

  • AI 학습 데이터 내 민감한 정보 유출 문제
    • 보안 연구진이 거대 언어 모델(LLM) 학습 데이터셋에서 11,908개의 API 키 및 비밀번호 노출 확인
    • 2024년 12월 트러플 시큐리티(Truffle Security) 연구팀이 Common Crawl 웹 데이터 아카이브 분석 중 발견
    • 노출된 정보에는 AWS 루트 키, Slack 웹훅, Mailchimp API 키 등이 포함
    • 특정 WalkScore API 키는 1,871개 서브도메인에서 57,029회 반복 노출, 보안 관행 미흡 사례 확인
  • LLM 학습 데이터 보안 위험
    • 취약한 코드 패턴 학습 가능성
      • AI가 하드코딩된 인증 정보를 학습하면, 보안이 취약한 코드 패턴을 개발자에게 추천할 가능성 증가
    • 기밀 정보 노출 가능성
      • AI 모델이 학습한 API 키나 비밀번호를 사용자가 특정 프롬프트로 입력했을 때 그대로 반환할 위험 존재
    • 악의적 활용 가능성
      • 공격자가 LLM을 활용해 기밀 정보를 추출하는 새로운 보안 위협 발생 가능
  • AI 개발자의 보안 책임 강화 필요
    • AI가 보안 취약점을 학습하고 확산시키는 새로운 위협 요소로 작용할 가능성 증가
    • 기업과 연구기관은 AI 학습 과정에서 보안 조치를 철저히 적용하는 체계적인 접근 방식 필요
    • 보안 강화를 위한 정책 수립 및 개발자 교육 필수
  • 보안 권고
    • API 키 및 비밀번호 보호 강화
      • 소스 코드 내 인증 정보 직접 포함 금지
      • 시크릿 관리 솔루션 (HashiCorp Vault, AWS Secrets Manager 등) 도입
      • 접근 권한 체계적 관리 및 역할 기반 접근 제어(RBAC) 적용
    • 보안 점검 및 자동화된 탐지 도입
      • 정기적인 코드 리뷰 및 보안 검사 수행
      • 자동화된 스캐닝 도구(TruffleHog, GitGuardian) 활용하여 API 키 및 민감 데이터 탐지
    • AI 학습 데이터 보안 검토 강화
      • 훈련 데이터 내 민감한 정보 포함 여부 사전 점검 및 필터링 절차 적용
      • AI 모델이 보안 취약점을 학습하지 않도록 필터링 기술 도입