Kant's IT/Issue on IT&Security

생성형 AI의 과도한 크롤링이 초래한 오픈 웹의 위기와 대응 전략

Kant Jo 2025. 5. 10. 11:31

“트래픽 80%가 봇” 생성형 AI가 장악한 인터넷과 오픈 액세스 웹사이트

 

“트래픽 80%가 봇” 생성형 AI가 장악한 인터넷과 오픈 액세스 웹사이트

생성형 AI가 인터넷에 심각한 피해를 입히기 시작했다. 인터넷의 주요 목적 중 하나는 과학자, 학자, 일반 대중 간의 자유롭고 개방적인 소통과 정보 교환을 위한 글로벌 네트워크 역할을 하고,

www.itworld.co.kr

 

  • 생성형 AI 확산에 따른 오픈 액세스(Open Access) 환경 악화
    • AI 크롤러가 오픈 액세스 웹사이트에서 무단으로 데이터 수집
    • 사용자가 콘텐츠 원문이 아닌 챗봇 응답만 소비하게 되며 트래픽 기반 자원 고갈 초래
    • 일부 사이트는 과도한 요청으로 서비스 장애 또는 가용성 저하 현상 발생
  • 인터넷 트래픽의 비정상적 구성
    • 전체 웹 트래픽의 약 80%가 봇 트래픽으로 구성됨
    • 이 중 생성형 AI 크롤러가 차지하는 비중은 지속 증가 중
    • GPT 계열 봇만으로 전체 웹 요청의 약 13% 차지
  • 오픈 액세스 사이트에 대한 구조적 위험
    • 챗봇 업체의 과도한 크롤링으로 사이트 성능 저하 및 접속 지연
    • 구글 검색 대신 챗봇 의존도 증가로 원문 사이트의 존재 가치 저하
    • 학술 논문 등 신뢰 정보의 원출처 기능 약화
  • 주요 기술적 대응 방안
    • AI 미로(AI Maze) 기술 도입: 클라우드플레어가 제안한 기술로, AI 크롤러를 허니팟 사이트로 유도해 데이터 오염 및 시간 낭비 유도
    • robots.txt 무시 대응: AI 크롤러가 robots.txt를 무시하는 점을 보완하기 위한 추가적 트래픽 차단 기술 필요
    • 웹 애플리케이션 방화벽(WAF): AI 봇의 행위 기반 식별 및 차단을 통해 합법 사용자와 구분
    • 속도 제한(rate limiting): IP당 요청 횟수 제한을 통해 서버 부하 감소
    • 고급 봇 관리 솔루션: 머신러닝 기반 식별로 IP 회피나 정교한 봇 행위 탐지 가능
  • 법적 및 정책적 대응 논의
    • AI 크롤링의 법적 정당성 및 데이터 사용 동의 여부에 대한 논쟁 본격화
    • 미국과 유럽을 중심으로 AI 훈련용 데이터 수집에 대한 저작권 및 사전 동의 요건 강화 움직임
    • 일부 사이트는 OpenAI 및 Anthropic 등 주요 LLM 제공자를 상대로 저작권 침해 소송 진행 중
  • 장기적 보호 및 생태계 회복 전략
    • 디지털 콘텐츠의 저작권 보호를 위한 구조적 정책 마련 필요
    • 콘텐츠 제공자가 AI 모델의 훈련용 데이터에서 자사 데이터를 제외할 수 있는 기술적 권리 보장
    • 오픈 액세스의 지속 가능한 발전을 위한 기술적, 법적, 윤리적 방어선 구축 필요
  • 결론
    • 생성형 AI의 확산은 정보 접근성을 개선하는 동시에, 정보 생산자의 지속 가능성을 위협
    • AI 훈련과정의 투명성과 책임성, 데이터 수집의 윤리성에 대한 글로벌 논의가 시급
    • 기술적 방어뿐 아니라, 공공 정책 및 국제 협약 수준의 보호 체계 수립 필요