엔터프라이즈 RAG가 프로덕션 단계 이전에 실패하는 이유
모두가 저에게 똑같은 RAG 데모를 보여줍니다. 질문 세 개에 답하고, 깔끔해 보이며, 잘 작동하죠.
제가 테스트해 봤습니다. 실패했습니다.
데모는 예고편일 뿐입니다. 영화 본편이 아니죠. 규제 산업에서의 RAG는 다릅니다. 매우 어렵습니다.
저는 제 자체 하드웨어에서 RAG를 실행합니다. 실제 데이터를 사용하고, 거짓말을 하지 않는 평가 루프(evaluation loops)를 사용합니다. 제가 발견한 사실은 이렇습니다. 데모는 결코 어려운 부분이 아니었습니다.
데모가 작동하면 프로덕션도 머지않았다는 신화가 있습니다. 이는 틀렸습니다. 대부분의 사람들은 실제 부하(real load) 환경에서 테스트하지 않습니다.
저는 40개의 깔끔한 PDF를 사용하여 RAG 데모를 구축했습니다. 완벽하게 작동했죠. 그러다 표와 스캔본이 포함된 지저분한 문서 4,000개를 입력했습니다. 시스템은 무너졌습니다.
수치가 이를 증명합니다. MIT의 한 연구에 따르면 생성형 AI 파일럿 프로젝트의 95%가 측정 가능한 수익을 전혀 내지 못했습니다. 또 다른 벤치마크에 따르면 기업 AI 이니셔티브의 82%가 프로덕션 단계에 도달하지 못합니다. 이것은 모델의 문제가 아닙니다. 데모의 문제입니다.
저는 제 개인 장비에서 이를 테스트했습니다. RTX 3090 두 대와 pgvector가 포함된 Postgres를 사용했습니다. 4,000개의 지저분한 문서와 120만 개의 청크(chunks)를 사용했습니다. 데이터가 네트워크 내에 머물 수 있도록 로컬 임베딩 모델을 사용했습니다.
진실은 이렇습니다: 모델이 먼저 환각(hallucinate)을 일으킨 것이 아닙니다. 검색(retrieval)이 먼저 거짓말을 했습니다.
저의 충실도(faithfulness) 점수는 0.91이었습니다. 대시보드는 초록색이었죠. 하지만 컨텍스트 재현율(context recall)은 0.58에 불과했습니다. 이는 실제 사실의 3분의 2 미만이 검색된 청크에 나타났음을 의미합니다.
답변은 맞는 것처럼 들렸습니다. 하지만 잘못된 컨텍스트에 근거하고 있었습니다. 시스템은 쓰레기 정보(junk)에 충실했던 것입니다.
규제 산업에서는 단순히 정답을 맞히는 것만으로는 부족합니다. 그것이 정답임을 증명해야 합니다. 감사 추적(audit trail)이 필요합니다. 규제 기관에 어떤 문장이 어떤 답변을 생성했는지 보여줄 수 있어야 합니다.
보여주기식 데모(Demo theater)로는 그것을 구축할 수 없습니다.
살아남으려면 네 가지가 필요합니다:
- 골든 세트(golden set)에 대한 평가 루프. 모든 변경 사항에 대해 실행하십시오.
- 거절 기능이 포함된 가드레일(guardrails). 신뢰도가 낮으면 시스템은 "모릅니다"라고 말해야 합니다.
- 관측성(Observability). 검색과 생성에 대한 트레이싱(tracing)이 필요합니다. 보이지 않는 것은 고칠 수 없습니다.
- 휴먼 인 더 루프(Human-in-the-loop). 고위험 답변에 대해서는 사람이 최종 관문이 되어야 합니다.
모델은 쉬운 20%에 불과합니다. 평가, 가드레일, 감사 추적, 그리고 사람이 실제로 제품을 출시(ship)하게 만드는 80%입니다.
평가 없이는 출시도 없습니다.
실제 데이터에 대한 평가 루프가 초록색(정상)이 되기 전까지는 규제 산업에 RAG를 출시하지 마십시오. 데모가 아니라 검색(retrieval)을 믿으십시오.
프로덕션에 배포하려고 할 때, 어떤 RAG 관련 조언이 통하지 않았나요? 여러분의 실패 사례를 들려주세요.
출처: https://dev.to/ercin/why-enterprise-rag-breaks-before-production-1866
학습 커뮤니티(선택 사항): https://t.me/GyaanSetuAi