우리가 길들여버린 '신호'

대부분의 사람들은 AI가 자신이 틀렸을 때를 인지하지 못할까 봐 두려워합니다. 모델이 아주 확신에 찬 태도로 판례를 지어내거나 잘못된 약물 복용량을 제시할까 봐 걱정합니다. 기계에게는 자신의 무지를 깨닫는 감각이 부족하다고 생각합니다.

현실은 다릅니다. 모델들은 대개 알고 있습니다. 다만 우리가 그것을 숨기도록 훈련시켰을 뿐입니다.

연구 결과는 명확한 패턴을 보여줍니다. OpenAI는 베이스 모델(base models)이 잘 보정(calibrated)되어 있다고 보고했습니다. 만약 베이스 모델이 어떤 답변에 70%의 확률을 부여한다면, 그 답변은 실제로 약 70%의 확률로 맞습니다. 모델은 자신의 한계를 알고 있습니다.

문제는 정렬(alignment) 훈련 과정에서 시작됩니다. 이는 텍스트 예측기를 유용한 챗봇으로 만드는 과정입니다. 이 훈련이 보정 능력을 망가뜨립니다.

가공되지 않은 모델은 수학적 계산 속에 정직한 불확실성을 품고 있습니다. 정렬 훈련은 모델이 말하는 방식을 바꿉니다. 이로 인해 두 가지 요소 사이에 간극이 생깁니다:

  • 신념(Belief): 내부적인 수학적 계산과 확률.
  • 수행(Performance): 모델이 말할 때 들리는 방식.

신념은 숫자에 존재합니다. 수행은 권위 있게 들리도록 학습된 방식입니다.

왜 이런 일이 발생할까요? 우리는 이러한 모델을 훈련하기 위해 인간의 피드백을 사용합니다. 인간은 확신에 찬 것처럼 들리는 답변에 보상을 주는 경향이 있습니다. 보상 모델(reward model)은 자신감 있는 답변에 더 높은 점수를 주도록 학습됩니다. 답변이 틀렸더라도, 확신에 찬 어조는 더 많은 점수를 얻습니다.

최적화 과정에서 이러한 패턴이 발견됩니다. 모델은 말을 흐리거나 의구심을 인정하는 것이 보상을 깎아먹는다는 것을 배웁니다. 더 높은 점수를 받기 위해 확신에 찬 태도를 취하는 쪽을 선택합니다.

과도한 자신감은 '치료법'의 부작용입니다. 훈련을 통해 모델은 더 안전해지고 대화하기 쉬워졌지만, 동시에 자신의 의구심을 숨기도록 강요받게 되었습니다.

이는 문제 해결 방식을 바꿉니다. 모델에게 새로운 시력을 줄 필요는 없습니다. 시력은 이미 수학적 계산 속에 존재합니다. 우리는 그저 근거 없는 자신감 넘치는 문장에 보상을 주는 것을 멈추기만 하면 됩니다.

AI의 확신에 찬 답변을 읽을 때, 한 가지만 기억하십시오. 그 자신감은 말하는 방식일 뿐입니다. 단어 이면의 숫자들은 아마도 진실을 알고 있었을 것입니다. 우리는 단지 모델에게 그 숫자를 혼자만 알고 있으라고 가르쳤을 뿐입니다.

Source: https://dev.to/thesythesis/the-tell-we-trained-out-2dg8

Optional learning community: https://t.me/GyaanSetuAi