Kant's IT/Issue on IT&Security

ChatGPT 안전 가이드라인 우회 공격

Kant Jo 2024. 9. 23. 16:37

Hacker tricked ChatGPT into providing detailed instructions to make a homemade bomb

 

Hacker tricked ChatGPT into providing detailed instructions to make a homemade bomb

A hacker tricked ChatGPT into providing instructions to make homemade bombs demonstrating how to bypass the chatbot safety guidelines.

securityaffairs.com

 

  • 사건 개요
    • 해커이자 예술가 AmadonChatGPT를 속여 자제 폭탄 제조법을 제공받는 데 성공함
    • 이는 ChatGPT안전 가이드라인을 우회하는 방법을 통해 이루어졌으며, 해커는 이를 소셜 엔지니어링 기법으로 수행함
    • 1995년 오클라호마 시티 폭탄 테러에 사용된 비료 폭탄과 유사한 폭발물 제조법을 요구했으나, 초기에 ChatGPT는 이를 윤리적 이유로 거부함
  • 해킹 방법
    • ‘탈옥(jailbreaking)’ 기술을 사용하여 요청을 가상 게임의 일부로 위장, ChatGPT의 검열 시스템을 우회함
    • 요청을 꾸준히 조정하여 ChatGPT가 강력한 폭발물과 관련된 구체적인 지침을 제공하도록 유도함
    • Amadon은 이 방법을 통해 지뢰, 클레이모어 스타일 폭발물과 같은 무기 제조법도 받음
  • 보안 위협 및 윤리적 문제
    • 폭발물 제조법을 포함한 민감한 정보가 AI를 통해 제공됨으로써 범죄 활동에 악용될 수 있는 심각한 보안 위협이 존재함
    • 소셜 엔지니어링을 활용한 AI 시스템 악용 가능성이 제기됨
    • 이러한 사례는 AI 모델의 안전성윤리적 검열 시스템에 대한 보완 필요성을 시사함
  • OpenAI 대응
    • Amadon은 해당 문제를 OpenAI버그 바운티 프로그램에 보고했으나, 모델 안전성 문제로 인해 프로그램의 기준에 맞지 않는다는 답변을 받음
    • 대신 문제 해결을 위한 다른 채널을 통해 보고할 것을 권장받음
  • 시사점
    • 이번 사건은 AI 모델안전 장치의 불완전성을 드러내며, 사회 공학적 해킹을 통해 악의적으로 활용될 수 있다는 점에서 심각한 보안 위협으로 평가됨
    • AI 기반 시스템이 잠재적 범죄 도구로 악용되지 않도록 안전성 강화윤리적 필터링 시스템의 개선이 필요함
    • AI의 발전에 따라 발생하는 새로운 보안 문제들에 대한 지속적인 모니터링과 대응이 요구됨