𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

Translated for your language. Read the original.

AI-assisted draft.

7가지 실수를 저지르기 전, RAG 인프라에 500달러를 낭비했습니다

개인 문서 검색을 위한 RAG 파이프라인을 구축했습니다. 컴퓨팅 비용으로 500달러를 썼고, 디버깅에 몇 주를 보냈습니다. 결과는 좋지 않았습니다. 사용자는 관련 없는 답변을 받았고 쿼리 속도는 느렸습니다.

파이프라인을 감사한 결과 7가지 흔한 실수를 발견했습니다. 이를 수정하자 모든 것이 바뀌었습니다.

고정 토큰 청킹 (Fixed Token Chunking) 문서를 고정된 토큰 수로 나누었습니다. 이로 인해 문맥이 파괴되었습니다. 문장이 중간에 잘려버렸습니다. LLM은 파편화된 데이터를 전달받아 부실한 답변을 내놓았습니다.

기본 검색 가중치 (Default Search Weights) 벡터 검색과 키워드 검색에 50/50 비율을 사용했습니다. 기술 문서의 경우 정확한 키워드가 더 중요합니다.

HNSW 파라미터 과최적화 ef_construction을 최대값으로 설정했습니다. 대규모 인덱스에서 이는 서버를 다운시키고 모든 RAM을 점유했습니다.

자연어 불일치 (Natural Language Mismatch) 사용자는 "왜 빌드가 느린가요?"와 같이 질문하지만, 문서는 "CI 파이프라인 최적화"와 같은 용어를 사용합니다. 두 사이에는 접점이 전혀 없었습니다.

중복된 컨텍스트 상위 10개의 청크를 검색하면 동일한 단락이 세 번씩 나오는 경우가 많았습니다. 이는 환각(hallucination) 현상을 유발했습니다.

엔드 투 엔드(End-to-End) 평가만 수행 최종 답변만 확인했습니다. 문제가 검색(retrieval)에 있는지 LLM에 있는지 알 수 없었습니다.

수정 후 결과: • 답변 관련성: 45% -> 85% • 쿼리 지연 시간: 3.2s -> 1.8s • 월간 비용: $180 -> $95

먼저 청킹부터 해결하세요. 그다음은 가중치, 마지막은 임베딩 품질입니다.

RAG를 사용하며 겪는 가장 큰 고민은 무엇인가요? 댓글로 알려주세요.

학습 커뮤니티(선택 사항): https://t.me/GyaanSetuAi

Continue reading