𝗦𝘁𝗼𝗽 𝗟𝗟𝗠 𝗖𝗼𝘀𝘁 𝗦𝗽𝗶𝗸𝗲𝘀 𝗕𝗲𝗳𝗼𝗿𝗲 𝗕𝗶𝗹𝗹𝗶𝗻𝗴 -> 청구 전 LLM 비용 급증을 방지하세요

OTel과 OpenInference를 사용하고 계신가요? 토큰 수는 보이지만, 어떤 팀에서 비용을 쓰고 있는지는 보이지 않을 것입니다.

다음 세 가지 속성을 사용하세요.

  • team.id: 게이트웨이에서 span에 태그를 지정합니다. 이를 통해 팀별 비용을 확인할 수 있습니다.
  • feature.id: 기능을 태그합니다. 어떤 기능에서 비용이 급증하는지 보여줍니다.
  • llm.model: 저렴한 모델과 비싼 모델을 구분합니다.

Grafana에서 매일 쿼리를 실행하세요. 출력 토큰의 95퍼센타일(95th percentile)을 확인합니다. 팀, 기능, 모델별로 그룹화하세요.

7일 평균 대비 2배 급증 시 알림이 울리도록 설정하세요. 지난 분기에 이 방법으로 재시도 루프(retry loop)를 잡아냈습니다. 메인 대시보드는 놓쳤지만, 전체 지출은 예산 내에 유지되었고 특정 팀의 지출만 두 배로 늘어난 상황이었습니다.

개인정보 보호를 위해 user.id는 제외하세요. 데이터 크기를 작게 유지하려면 request.id도 제외하세요.

Source: https://dev.to/jasmine_park_dev/span-attributes-that-catch-llm-cost-regressions-before-billing-does-472n Optional learning community: https://t.me/GyaanSetuAi