검열 벗은 R1 변종, 中 민감 답변도 ‘술술’
보안 업체 퍼플렉시티(Perplexity)가 새로운 AI 모델인 R1 1776을 공개했다. 기존 딥시크(DeepSeek) R1을 기반으로 한 것으로, 그간 R1에서 문제가 됐던 ‘중국식 검열’ 특성이 제거됐다. 중국에 편향되거
www.boannews.com
- 배경 및 목적
- 보안 업체 퍼플렉시티(Perplexity)가 기존 R1 모델을 개량한 R1 1776 출시
- 기존 R1 모델의 '중국식 검열' 특성을 제거해 중국에 민감한 주제에도 객관적 답변 제공 가능
- AI 모델의 편향성을 해소하고 더 높은 품질의 응답을 목표로 함
- 검열 제거 방법: 사후 훈련(Post-training)
- '사후 훈련' 기법을 사용해 R1의 검열 문제 해결
- 중국 공산당이 검열할 가능성이 있는 주제 300개 선정
- 각 주제별 전문가를 섭외하여 다국어 검열 분류 장치 개발
- 사용자 동의를 얻어 4만 개 이상의 프롬프트(질문) 수집
- 수집된 프롬프트에 대해 객관적이고 합당한 사고 과정이 포함된 응답 데이터 마련
- 사후 훈련 과정
- 검열 가능한 주제별 전문가들과 협력해 고품질 데이터 수집
- 수집된 데이터로 R1 모델을 추가 훈련하여 검열을 자동으로 해제하도록 설계
- 학술 벤치마크 및 내부 품질 평가를 통해 모델 성능 유지
- 성과 및 기대효과
- R1 1776은 기존 R1의 성능을 유지하면서도 검열 없는 객관적 정보 제공 가능
- AI 활용 시 중국 정부에 민감한 주제에 대해서도 제한 없이 답변 가능
- 보안 및 연구 기관에서 신뢰할 수 있는 AI 도구로 활용 기대
- 결론
- AI 모델의 편향성 문제는 사이버 보안 및 데이터 활용 측면에서 중요한 요소
- 사후 훈련 기법은 AI 모델의 편향성과 검열 문제 해결에 효과적임을 입증
- 기업 및 기관에서는 AI 모델을 도입 시 검열 및 편향성 평가 절차를 마련할 필요 있음
- 보안 정책에 AI 모델의 투명성과 신뢰성을 평가하는 기준 포함 권장
'Kant's IT > Issue on IT&Security' 카테고리의 다른 글
클라우드 비용 증가 원인 및 최적화 전략 (0) | 2025.03.04 |
---|---|
엘릭서(Elixir), 함수형 프로그래밍과 동시성의 새로운 접근 (0) | 2025.03.04 |
쿠버네티스 네트워크 및 보안을 강화하는 '칼리코 인그레스 게이트웨이' 출시 (0) | 2025.03.04 |
글로벌 프리랜서 개발자를 노린 악성코드 유포 캠페인 '디셉티브디벨롭먼트' (1) | 2025.03.04 |
개인정보 보호법의 형사처벌 한계와 입법적 보완 필요성 (0) | 2025.03.04 |