Kant's IT/Issue on IT&Security

검열을 벗어난 AI 모델 R1 1776 공개

Kant Jo 2025. 3. 4. 13:00

검열 벗은 R1 변종, 中 민감 답변도 ‘술술’

 

검열 벗은 R1 변종, 中 민감 답변도 ‘술술’

보안 업체 퍼플렉시티(Perplexity)가 새로운 AI 모델인 R1 1776을 공개했다. 기존 딥시크(DeepSeek) R1을 기반으로 한 것으로, 그간 R1에서 문제가 됐던 ‘중국식 검열’ 특성이 제거됐다. 중국에 편향되거

www.boannews.com

 

  • 배경 및 목적
    • 보안 업체 퍼플렉시티(Perplexity)가 기존 R1 모델을 개량한 R1 1776 출시
    • 기존 R1 모델의 '중국식 검열' 특성을 제거해 중국에 민감한 주제에도 객관적 답변 제공 가능
    • AI 모델의 편향성을 해소하고 더 높은 품질의 응답을 목표로 함
  • 검열 제거 방법: 사후 훈련(Post-training)
    • '사후 훈련' 기법을 사용해 R1의 검열 문제 해결
    • 중국 공산당이 검열할 가능성이 있는 주제 300개 선정
    • 각 주제별 전문가를 섭외하여 다국어 검열 분류 장치 개발
    • 사용자 동의를 얻어 4만 개 이상의 프롬프트(질문) 수집
    • 수집된 프롬프트에 대해 객관적이고 합당한 사고 과정이 포함된 응답 데이터 마련
  • 사후 훈련 과정
    • 검열 가능한 주제별 전문가들과 협력해 고품질 데이터 수집
    • 수집된 데이터로 R1 모델을 추가 훈련하여 검열을 자동으로 해제하도록 설계
    • 학술 벤치마크 및 내부 품질 평가를 통해 모델 성능 유지
  • 성과 및 기대효과
    • R1 1776은 기존 R1의 성능을 유지하면서도 검열 없는 객관적 정보 제공 가능
    • AI 활용 시 중국 정부에 민감한 주제에 대해서도 제한 없이 답변 가능
    • 보안 및 연구 기관에서 신뢰할 수 있는 AI 도구로 활용 기대
  • 결론
    • AI 모델의 편향성 문제는 사이버 보안 및 데이터 활용 측면에서 중요한 요소
    • 사후 훈련 기법은 AI 모델의 편향성과 검열 문제 해결에 효과적임을 입증
    • 기업 및 기관에서는 AI 모델을 도입 시 검열 및 편향성 평가 절차를 마련할 필요 있음
    • 보안 정책에 AI 모델의 투명성과 신뢰성을 평가하는 기준 포함 권장