엔터프라이즈 AI 에이전트를 위한 가드레일
대부분의 AI 가드레일 조언은 영업용 멘트처럼 들립니다. 화려한 다이어그램과 체크리스트에만 집중하죠.
실제 운영 환경의 안전은 그만큼 화려하지 않습니다. LLM이 등장하기 훨씬 전부터 존재했던 요소들에 의존합니다.
저는 Fortune 100 기업을 위해 AI 에이전트를 구축하는 데 2년을 보냈습니다. 이 에이전트들은 CI/CD 장애, Kubernetes 인시던트, 인프라 문서를 처리합니다.
에이전트를 안전하게 유지하기 위해 저희가 사용하는 계층형 스택은 다음과 같습니다.
에이전트 경계에서의 신원(Identity) 관리. 모든 에이전트는 워크로드 신원(workload identity)을 사용합니다. 공유 자격 증명을 절대 사용하지 않습니다. IAM 범위는 보안의 상한선입니다. 에이전트에 데이터베이스 액세스가 필요하지 않다면, IAM 역할에도 해당 권한이 없어야 합니다. 이것이 가장 중요한 통제 수단입니다.
도구 허용 목록(Tool allow-lists). 플랫폼이 에이전트가 볼 수 있는 도구를 결정합니다. 코드 검색 에이전트가 이메일 도구를 가져서는 안 됩니다. 저희는 이를 위해 정적 설정을 사용하며, 동적 도구 등록은 절대 사용하지 않습니다.
네트워크 송신(Egress) 제어. 에이전트는 허용된 엔드포인트에만 접속할 수 있습니다. 저희는 DNS 필터링과 이그레스 프록시(egress proxy)를 사용합니다. 이를 통해 모델의 환각(hallucination) 현상이 잘못된 URL로 이어지는 것을 방지합니다.
비밀 정보(Secrets) 격리. 에이전트는 원본 비밀 정보를 절대 볼 수 없습니다. 도구 호출 시 주입되는 수명이 짧은 세션 토큰을 사용합니다. 프롬프트에 비밀 정보를 절대 넣지 마세요. 프롬프트에 포함된 모든 것은 로그에 남거나 재현될 수 있습니다.
전체 감사 추적(Full audit trails). 모든 모델 호출과 도구 호출을 로그로 남겨야 합니다. 여기에는 입력, 출력, 도구 인자, 사용자 신원이 포함됩니다. 인시던트 발생 시 무엇이 잘못되었는지 파악하려면 이것이 반드시 필요합니다.
사람의 승인(Human approval). 시스템 기록(system of record)을 변경하는 모든 작업에 대해 플랫폼은 일시 중지되어야 합니다. 사람이 해당 작업을 승인해야 합니다. 이것이 여러분의 안전망입니다.
다음과 같은 흔한 실수를 피하십시오:
프롬프트 수준의 지침. 모델에게 "X를 절대 하지 마라"고 말하는 것은 보안이 아닙니다. 사용자는 모델을 속일 수 있습니다. 통제 권한을 IAM이나 도구 계층으로 옮기십시오.
일반적인 PII(개인정보) 필터. 이러한 필터는 오류율이 높습니다. IAM을 통해 데이터 액세스를 제한하여 에이전트가 민감
감사 추적(audit trail)을 철저히 구축하십시오. 프롬프트와 답변만 캡처하는 것으로는 충분하지 않습니다. 중간 단계의 도구 호출(tool calls)과 인자(arguments)가 필요합니다. 초기에 로그를 남기는 것은 비용이 적게 들지만, 나중에 수정하는 것은 비용이 많이 듭니다.
에이전트 간 통신을 제한하십시오. 멀티 에이전트 시스템에서는 에이전트 간 호출에 대해 엄격한 상한선(hard cap)을 설정하십시오. 이는 연쇄적인 장애(cascading failures)를 방지합니다.
대규모 AI 안전은 모델의 문제가 아닙니다. 플랫폼의 문제입니다. 에이전트를 다른 운영 시스템과 동일한 운영 규율(operational discipline)로 다루십시오.
선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi