तुमचा AI बिल हा मॉडेलचा प्रश्न नाही. तो आर्किटेक्चरचा प्रश्न आहे.

जर तुमचे LLM खर्च वाढत असतील, तर तुम्हाला बहुधा स्वस्त मॉडेलवर स्विच करायचे असेल. तुम्ही GPT-4 वरून GPT-4-mini कडे वळू शकता. यामुळे थोडी मदत होते, पण यामुळे मूळ समस्या क्वचितच सुटते.

खरी समस्या तुमच्या वर्कफ्लोमध्ये (workflow) आहे. बहुतेक लोक प्रत्येक पायरी LLM द्वारेच पार पाडतात. ज्या कामांसाठी भाषिक तर्कशक्तीची (language reasoning) गरज नाही, तिथेही ते त्याचा वापर करतात.

प्रत्येक AI वर्कफ्लोचे चार भाग असतात:

• ट्रिगर (Trigger): काम सुरू करतो. याचा खर्च जवळजवळ शून्य असतो. • डिटरमिनिस्टिक ML (Deterministic ML): डेटाचे वर्गीकरण किंवा स्कोअरिंग करते. हे स्वस्त असते. • LLM: वाचते, लिहिते आणि तर्क करते. हे महाग असते. • टूल/API (Tool/API): डेटा मिळवते किंवा लिहिते. हे स्वस्त असते.

डिटरमिनिस्टिक ML आणि LLM मधील तफावत खूप मोठी आहे. एका साध्या क्लासिफायरपेक्षा (classifier) LLM चा खर्च १०० ते १००० पटीने जास्त असू शकतो. जर तुम्ही प्रत्येक पायरीसाठी योग्य साधन निवडले नाही, तर तुम्ही आपोआप महागड्या पर्यायाकडे वळता.

एका सपोर्ट तिकीट सिस्टमचे उदाहरण पाहूया.

एक चुकीची रचना (bad build) संपूर्ण तिकीट LLM कडे पाठवते. ते LLM ला हेतू (intent) वर्गीकृत करण्यास, तिकीट राउट करण्यास, उत्तराचा मसुदा तयार करण्यास आणि CRM अपडेट करण्यास सांगते. हे खूप महाग पडते. वर्गीकरणासाठी (Classification) LLM ची गरज नसते. मजकूर एखाद्या श्रेणीशी (category) जोडण्यासाठी फक्त एका साध्या मॉडेलची गरज असते.

एक चांगली रचना अशी दिसते:

  1. ट्रिगर (Trigger): एक तिकीट येते.
  2. डिटरमिनिस्टिक ML (Deterministic ML): एक वेगवान, स्वस्त मॉडेल तिकीट बिलिंग, तांत्रिक की स्पॅम आहे हे ठरवते.
  3. LLM: फक्त वैध तिकिटांसाठी उत्तराचा मसुदा तयार करण्यासाठी वापरले जाते.
  4. टूल/API (Tool/API): सिस्टम CRM अपडेट करते.

या आवृत्तीमध्ये, स्पॅम तिकिटे कधीही LLM पर्यंत पोहोचत नाहीत. तुम्ही निरर्थक कामांवर "LLM टॅक्स" देणे थांबवता.

जर तुम्ही तुमचे आर्किटेक्चर योग्यरित्या राउट केले, तर मॉडेल बदलण्यापूर्वीच तुम्ही सर्वात महागड्या कॉल्सना (calls) काढून टाकू शकता.

तुमचे खर्च कमी करण्यासाठी या पायऱ्या फॉलो करा:

  • तुमचा वर्कफ्लो मॅप करा. कोणत्या पायऱ्यांसाठी खरोखर तर्कशक्तीची गरज आहे आणि कोणत्या फक्त वर्गीकरण किंवा एक्सट्रॅक्शनसाठी आहेत, हे ओळखा.
  • डिटरमिनिस्टिक पायऱ्या प्रॉम्प्टमधून (prompt) बाहेर काढा. राउटिंग आणि स्कोअरिंगसाठी वेगवान आणि स्वस्त पद्धती वापरा.
  • LLM ला गेट (gate) करा. ज्या कामांसाठी गरज नाही, त्यासाठी प्रतिसाद तयार करू नका.
  • मॉडेलच्या आकाराचे मूल्यमापन शेवटी करा. तुमचे आर्किटेक्चर सुटसुटीत (lean) झाल्यावरच जनरेशन स्टेपसाठी लहान मॉडेल निवडा.

कोणते मॉडेल प्रति टोकन (per token) सर्वात स्वस्त आहे यावर वाद घालणे थांबवा. महाग इंजिनची गरज असेल तेव्हाच त्याचा वापर करणारे आर्किटेक्चर तयार करण्यास सुरुवात करा.

स्रोत: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole

पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi