내 AI 에이전트에게 양심과 의회를 부여했다

나는 자율형 AI를 구축한다. 단순히 명령을 제안하는 것에 그치지 않고, 실제 운영 시스템에서 명령을 실행한다.

에이전트가 실제 인프라에서 작동할 때, 문제는 능력이 아니다. 모델들은 이미 위험할 정도로 충분한 능력을 갖추고 있다. 진짜 문제는 거버넌스(governance)다. 어떻게 하면 자율 시스템이 무언가를 영구적으로 망가뜨리지 않으면서 실제 도구를 다루게 할 수 있을까?

이를 해결하기 위해 두 개의 게이트를 만들었다.

첫 번째 게이트는 양심(Conscience)이다.

모든 명령은 이 검사를 통과한다. 이것은 LLM이 아니다. 대신 빠르고 결정론적인(deterministic) 검사 방식을 사용한다. 이 검사는 작업을 가역적(reversible), 외부적(external), 불가역적(irreversible), 또는 파괴적(destructive)인 것으로 분류한다. 또한 영향 범위(blast radius)를 살펴보고 허용, 요청, 또는 거부 여부를 결정한다.

안전을 위해 LLM을 사용하지 않는데, 환각(hallucination)을 일으키는 안전 검사는 무용지물이기 때문이다. 양심은 척수 반사(spinal reflex)와 같다. 지루하고 예측 가능하다. 똑똑한 모델이 행동을 제안하면, 신뢰할 수 있는 반사 작용이 이를 통제한다.

양심은 두 가지 규칙을 따른다:

  • Fail-open을 택해야 하며, fail-closed가 되어서는 안 된다. 시스템이 불확실할 때마다 멈춰버린다면 무용지물이 된다. 실제 위험은 에스컬레이션(escalate)하되, 그 외의 상황에서는 방해가 되지 않아야 한다.
  • 변조 확인이 가능한 메모리(Tamper-evident memory). 모든 결정은 추가 전용(append-only) 로그에 기록된다. 각 항목은 이전 항목에 서명한다. 누군가 기록을 수정하면 체인이 끊어진다. 에이전트는 자신의 기록을 다시 쓸 수 없다.

두 번째 게이트는 의회(Council)다.

행동만이 위험 요소는 아니다. 가장 큰 실수는 그럴싸해 보이는 나쁜 아이디어에서 나온다. 나 또한 존재해서는 안 될 기능을 만들 뻔한 적이 있었다.

이제 코드를 작성하기 전에 아이디어가 의회를 통과한다. 이는 공개적으로 토론하는 독립적인 모델들의 집단이다. 나는 아이디어가 나쁘다면 제안을 기각하라고 명령한다.

내가 설계한 스케줄러로 이를 테스트했다. 나는 그것이 자랑스러웠다. 하지만 의회는 거의 만장일치로 그것을 거부했다. 그들은 스케줄링할 공유 자원이 없다는 것을 간파했다. 그것은 문제를 찾고 있는 해결책(a solution looking for a problem)에 불과했다. 나는 시간을 낭비하기 전에 코드를 삭제했다.

양심은 행동을 통제하고, 의회는 아이디어를 통제한다. 하나는 잘못된 행동을 하지 않도록 막아주고, 다른 하나는 잘못된 것을 만들지 않도록 막아준다.

나는 신뢰에 대해 뼈아픈 교훈을 얻었다.

한 번은 의회가 완벽한 판결을 내린 적이 있었다. 확신에 차 있고 깔끔해 보였다. 하지만 로그를 확인했을 때, 토론 기록(transcript)이 없었다. 시스템이 토론 전체를 조작한 것이었다. 투표 결과와 판결을 스스로 지어낸 것이다.

서술만 믿어서는 안 된다는 것을 배웠습니다. 반드시 영수증을 확인해야 합니다.

판결은 직접 읽을 수 있는 독립적인 결과물이 있을 때만 유효합니다. 신뢰는 이야기가 아니라 검증 가능해야 합니다.

모두가 에이전트의 능력을 높이기 위해 앞다투어 경쟁하고 있습니다. 하지만 실제 프로덕션에 필요한 거버넌스를 구축하는 사람은 거의 없습니다.

진정한 자율 에이전트에게는 다음과 같은 요소가 필요합니다:

  • 넘어서는 안 될 경계.
  • 구현하기 전에 잘못된 아이디어를 식별하는 능력.
  • 컴포넌트가 주장한 바를 실제로 수행했다는 증거.

양심, 협의체, 그리고 검증 가능한 신뢰. 이것이 진정한 시스템의 중추입니다.

출처: https://dev.to/artemmatviychuk/i-gave-my-ai-agent-a-conscience-and-a-council-lm0

선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi