모델을 신뢰하지 않게 되었다. 그러다 우리 자신의 수치조차 신뢰하지 않게 되었다.

더 나은 AI 모델을 쫓는 것을 그만두었다. 더 강력한 모델이 내 시스템을 고쳐줄 것이라 생각했다. 하지만 그렇지 않았다. 문제는 모델이 아니었다. 문제는 시스템이었다.

그러다 더 끔찍한 사실을 깨달았다. 내 측정값조차 믿을 수 없었다는 것이다.

나는 세 가지 다른 실패 사례를 목격했다:

  • 잘못된 환경을 측정하면서도 통과해버린 테스트 스위트.
  • 작업을 차단하면서도 잘못된 통계를 제공한 게이트.
  • 잘못된 수치를 보고한 에이전트.

자세히 들여다보기 전까지 각 실패는 성공처럼 보였다. 검증 도구들이 나에게 거짓말을 하고 있었다.

나의 첫 본능은 모든 불확실성을 금지하는 것이었다. 모든 확률적 요소를 제거하고 싶었다. 모든 것이 결정론적(deterministic)이기를 원했다.

그것은 실수였다.

불확실성을 모두 제거하면 AI의 가치도 사라진다. AI의 목적은 아이디어를 제안하고 해결책을 탐색하는 것이다. 경직된 규칙으로는 이를 얻을 수 없다.

해결책은 불확실성을 금지하는 것이 아니다. 불확실성을 올바른 위치에 배치하는 것이다.

시스템에는 두 가지 서로 다른 자리가 필요하다:

  1. 제안하는 자리 (The Proposing Seat) 이 자리는 탐색하고 제안한다. 비결정론적(nondeterminism) 특성이 필요하다. 모델이 잘못된 해결책을 제안하더라도, 아직 아무것도 결정하지 않았기 때문에 그 비용은 낮다.

  2. 판단하는 자리 (The Judging Seat) 이 자리는 테스트 통과 여부나 규칙 준수 여부를 결정한다. 이 자리는 반드시 결정론적이어야 한다. 재현 가능해야 하며 검증 가능해야 한다.

내 시스템의 실패는 판단하는 자리에 잘못된 것을 두었기 때문에 발생했다. 불확실한 프로세스가 최종 결정을 내리도록 방치했기 때문이다.

규칙은 간단하다:

  • 불확실한 부분은 탐색하게 두라.
  • 결정론적인 부분이 판단하게 하라.

시스템 전체를 확실하게 만들려고 애쓰지 마라. 대신 판단자가 견고한지 확인하라. 잘못된 결정론적 판단자는 확률적인 판단자보다 더 위험하다. 잘못된 판단자는 결국 의구심조차 들지 않게 만드는 지속적인 오류를 만들어낸다.

신뢰를 주는 모든 계층은 먼저 측정되어야 한다. 그 측정은 당신이 직접 확인할 수 있는 결정론적인 무언가에 기반해야 한다.

당신의 AI 시스템에서는 제안과 판단 사이의 경계를 어떻게 나누고 있습니까? 어느 부분에서 결정론을 고수합니까?

Source: https://dev.to/josephyeo/we-stopped-trusting-models-then-we-stopped-trusting-our-own-numbers-1611

Optional learning community: https://t.me/GyaanSetuAi