편향 없는 AI 파이프라인 구축하기

6주 동안 공들여 만든 AI 파이프라인이 편향되어 있다는 사실을 알게 되었습니다. 취약합니다. 감사하기 어렵습니다. 몇 가지 해결책은 효과가 있습니다. 이 해결책들은 동료 검토를 거쳤습니다. 이번 주에 바로 배포하십시오.

서로 다른 모델 제품군의 생성 모델(generator)과 판별 모델(judge)을 사용하십시오. 생성에는 OpenAI를 사용하십시오. 판별에는 Anthropic을 사용하십시오. 이렇게 하면 자기 선호 편향(self preference bias)을 방지할 수 있습니다. 모델이 자신의 스타일을 선호하는 현상을 막아줍니다.

응답이 좋은지 묻는 것을 멈추십시오. 대신 다음 항목들에 대해 점수를 매기도록 요청하십시오:

  • 정확성
  • 완전성
  • 어조
  • 실행 가능성 이를 통해 편향을 31.5% 줄일 수 있습니다.

판별 모델이 점수를 매기기 전에 추론하도록 강제하십시오. 사실을 나열하게 만드십시오. 각 사실을 검증하게 만드십시오. 그런 다음 점수를 부여하게 합니다. 이를 통해 정확도가 1.5에서 13포인트 상승합니다.

개별 출력값만 모니터링하지 마십시오. 전체 데이터 집합(population)을 관찰하십시오. 점수 분포의 변화를 확인하십시오. 이를 통해 드리프트(drift)와 공격을 조기에 포착할 수 있습니다.

경쟁적인 설정을 피하십시오. 에이전트끼리 논쟁하게 해서는 안 됩니다. 협력적인 설정을 사용하십시오. 한 에이전트는 생성합니다. 한 에이전트는 공백을 찾습니다. 한 에이전트는 공백을 채웁니다. 이를 통해 견고성(robustness)이 68% 향상됩니다.

체크리스트:

이번 주:

  • 프롬프트에 추론 과정 추가
  • 구조화된 평가 사용
  • 사용 중인 모델 제품군 확인

이번 달:

  • 교차 제품군 평가 설정
  • 전체 데이터 집합 모니터링 시작

이번 분기:

  • 적대적 공격(adversarial attacks) 테스트
  • 협력적 설계로 전환

이 문제를 완전히 해결할 수는 없을 것입니다. 하지만 편향을 줄일 수 있습니다. 오류를 더 빠르게 잡아낼 수 있습니다. 이것이 목표입니다.

출처: https://dev.to/sayokbose91/part-6-of-6-how-to-build-pipelines-that-dont-gaslight-themselves-dci 선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi