AI 비용 문제는 모델의 문제가 아닙니다. 아키텍처의 문제입니다.
LLM 비용이 계속 상승하고 있다면, 아마 더 저렴한 모델로 교체하고 싶을 것입니다. GPT-4에서 GPT-4-mini로 옮겨갈 수도 있겠죠. 이는 약간의 도움이 될 수는 있지만, 근본적인 문제를 해결하는 경우는 드뭅니다.
진짜 문제는 워크플로우입니다. 대부분의 사람들은 모든 단계를 LLM을 거치도록 설계합니다. 언어적 추론이 필요하지 않은 작업에도 언어 추론 능력을 사용하고 있습니다.
모든 AI 워크플로우는 네 가지 부분으로 구성됩니다:
• 트리거(Trigger): 작업을 시작합니다. 비용은 거의 제로에 가깝습니다. • 결정론적 ML(Deterministic ML): 데이터를 분류하거나 점수를 매깁니다. 비용이 저렴합니다. • LLM: 읽고, 쓰고, 추론합니다. 비용이 비쌉니다. • 도구/API(Tool/API): 데이터를 가져오거나 씁니다. 비용이 저렴합니다.
결정론적 ML과 LLM 사이의 격차는 엄청납니다. LLM은 단순 분류기보다 100배에서 1,000배 더 많은 비용이 들 수 있습니다. 각 단계에 적합한 도구를 선택하지 않으면, 결국 가장 비싼 도구를 기본값으로 사용하게 됩니다.
고객 지원 티켓 시스템을 예로 들어보겠습니다.
잘못 설계된 시스템은 티켓 전체를 LLM으로 보냅니다. LLM에게 의도를 분류하고, 티켓을 라우팅하며, 답장 초안을 작성하고, CRM을 업데이트하라고 요청합니다. 이는 과도한 비용이 발생합니다. 분류 작업에는 LLM이 필요하지 않습니다. 텍스트를 카테고리에 매핑하는 간단한 모델만 있으면 됩니다.
더 나은 설계는 다음과 같습니다:
- 트리거(Trigger): 티켓이 도착합니다.
- 결정론적 ML(Deterministic ML): 빠르고 저렴한 모델이 티켓이 결제, 기술 지원, 또는 스팸인지 판단합니다.
- LLM: 유효한 티켓에 대한 답장 초안을 작성할 때만 사용됩니다.
- 도구/API(Tool/API): 시스템이 CRM을 업데이트합니다.
이 방식에서는 스팸 티켓이 LLM에 도달하지 않습니다. 불필요한 작업에 대해 "LLM 세금"을 지불하는 일을 멈출 수 있습니다.
아키텍처를 올바르게 설계하면, 모델을 교체하기도 전에 가장 비용이 많이 드는 호출을 제거할 수 있습니다.
비용을 절감하려면 다음 단계를 따르십시오:
- 워크플로우를 매핑하십시오. 어떤 단계에 실제 추론이 필요하고, 어떤 단계가 단순 분류나 추출인지 식별하십시오.
- 결정론적 단계를 프롬프트에서 제외하십시오. 라우팅 및 점수 매기기에는 더 빠르고 저렴한 방법을 사용하십시오.
- LLM에 게이트(Gate)를 설치하십시오. 추론이 필요하지 않은 작업에 대해서는 응답을 생성하지 마십시오.
- 모델 크기 평가는 마지막에 하십시오. 아키텍처가 효율적으로 구성된 후에만 생성 단계에 사용할 작은 모델을 선택하십시오.
어떤 모델이 토큰당 가장 저렴한지에 대해 논쟁하는 것을 멈추십시오. 비싼 엔진을 꼭 필요할 때만 사용하는 아키텍처를 구축하기 시작하십시오.
출처: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole
선택 사항 학습 커뮤니티: https://t.me/GyaanSetuAi
