이메일 에이전트를 위한 Human-in-the-loop 디자인

환불 요청이 고객 지원 대기열에 들어옵니다. AI 에이전트가 91%의 신뢰도로 지식 베이스에서 일치하는 내용을 찾았습니다. 하지만 에이전트는 여전히 그 답변을 보내서는 안 됩니다.

대부분의 팀은 인간의 감독을 단순한 선택의 문제로 봅니다. AI가 혼자 이메일을 보내거나, 사람이 모든 것을 확인하거나 둘 중 하나라고 말이죠. 하지만 두 방식 모두 실패합니다.

완전 자동화는 브랜드 이미지를 훼손하는 잘못된 답변으로 이어집니다. 반면, 모든 과정을 사람이 검토하면 AI는 시간을 전혀 절약해주지 못하는 비싼 초안 생성기에 불과하게 됩니다.

스위치 대신 다이얼을 사용하세요. 메시지 유형에 따라 자동화 수준을 설정해야 합니다.

게이트 1: 지식 일치도 이 게이트는 AI가 답변에 대해 얼마나 확신하는지를 확인합니다.

• 신뢰도 85% 이상: 문서를 바탕으로 답변 초안을 직접 작성합니다. • 신뢰도 60% ~ 85%: 답변 초안을 작성하되, 사람이 빠르게 확인할 수 있도록 출처 링크를 포함합니다. • 신뢰도 60% 미만: 초안을 작성하지 않습니다. 수동 검토 대상으로 표시합니다.

게이트 2: 리스크 수준 이 게이트는 실수가 초래할 결과를 고려합니다. 신뢰도 점수는 무시합니다.

• 낮은 리스크 (비밀번호 재설정, FAQ): 사람이 승인할 수 있도록 답변 초안을 작성합니다. • 중간 리스크 (환불, 결제 정보 변경): 답변 초안을 작성하되, 사람의 추가적인 면밀한 검토를 거치도록 합니다. • 높은 리스크 (법적 위협, 사기): 초안을 작성하지 않습니다. 즉시 담당자에게 전달합니다.

이것이 바로 신뢰도가 91%인 환불 답변이 바로 발송되지 않는 이유입니다. 신뢰도는 AI가 정답을 알고 있는지를 알려줍니다. 리스크는 AI가 틀렸을 때 어떤 일이 벌어지는지를 알려줍니다. 이 두 가지 개념을 반드시 분리해야 합니다.

규칙은 간단합니다. 보내기 전에 항상 초안을 보여주세요. 절대 자동 발송하지 마세요.

인간의 감독은 세금이 아닙니다. 나중에 더 많은 자동화를 구현하기 위해 필요한 데이터를 수집하는 과정입니다. '초안 작성 후 승인' 단계에서 '완전 자동화' 단계로 넘어가려면, 로그를 사용하여 정확성을 증명하세요. 느낌에 의존하지 마십시오.

이번 주에 메시지 유형을 이 세 가지 리스크 단계로 분류해 보세요. 어디에서 과도하게 검토하고 있는지, 어디에서 너무 위험을 감수하고 있는지 결정하십시오.

출처: https://dev.to/qasim157/human-in-the-loop-design-for-email-agents-3fhc

선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi