𝗧𝗵𝗲 𝗛𝗶𝗱𝗱𝗲𝗻 𝗖𝗼𝘀𝘁 𝗼𝗳 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗜
ప్రొడక్షన్లో వచ్చే అత్యంత ప్రమాదకరమైన బగ్స్ మీ సిస్టమ్ను క్రాష్ చేయవు. అవి కేవలం నిశ్శబ్దంగా విఫలమవుతాయి.
ఒక LLM ప్రొవైడర్కు పాక్షిక అంతరాయం (partial outage) కలగవచ్చు. వారు 200 OK స్టేటస్ను తిరిగి పంపుతారు, కానీ రెస్పాన్స్ ఖాళీగా లేదా అర్థం లేనిదిగా ఉంటుంది. అక్కడ ఎటువంటి ఎర్రర్ ఉండదు. ఎటువంటి అలర్ట్ ఉండదు. అది విజయవంతమైనట్లు కనిపిస్తుంది, కానీ అది ఒక వైఫల్యం.
ఇదే AI యొక్క అసలైన ఖర్చు. ఇది API బిల్లుల గురించి కాదు. వినియోగదారుడు ఏదో తప్పు జరిగిందని చెప్పే వరకు, సాధారణంగా కనిపించే ఆ వైఫల్యమే అసలైన ఖర్చు.
నేను ప్రతిరోజూ 10,000 జాబ్ లిస్టింగ్లను స్కోర్ చేసే ఒక పైప్లైన్ను నడుపుతున్నాను. నేను OpenAI, Anthropic, Gemini, DeepSeek, మరియు Groq ఉపయోగిస్తాను. పని చేసే విధంగా ఫాల్బ్యాక్ చైన్లను (fallback chains) ఎలా నిర్మించాలో ఇక్కడ ఉంది.
చాలా టీమ్లు ఒకే ప్రొవైడర్ను ఉపయోగిస్తాయి. అది డెవలప్మెంట్లో బాగానే పనిచేస్తుంది. కానీ ప్రొడక్షన్ ట్రాఫిక్ పెరిగినప్పుడు, మీరు రేట్ లిమిట్స్ (rate limits), క్షీణించిన రెస్పాన్స్లు (degraded responses), లేదా పాతబడిన మోడల్స్ (deprecated models) వంటి సమస్యలను ఎదుర్కోవాల్సి వస్తుంది.
మీకు మూడు-అంచెల ఆర్కిటెక్చర్ అవసరం:
- లేయర్ 1: ప్రైమరీ మోడల్. అధిక నాణ్యత మరియు అధిక ఖర్చు.
- లేయర్ 2: ఫాల్బ్యాక్ మోడల్. మంచి నాణ్యత మరియు తక్కువ ఖర్చు.
- లేయర్ 3: డిగ్రేడెడ్ మోడ్. కనిష్ట నాణ్యత మరియు దాదాపు సున్నా ఖర్చు.
ప్రతి లేయర్ వేర్వేరు ప్రొవైడర్ను ఉపయోగించాలి. ఒక ప్రొవైడర్ పనిచేయకపోతే, మిగిలినవి అందుబాటులో ఉంటాయి.
ముఖ్యమైన చిట్కా: కేవలం HTTP స్టేటస్ను మాత్రమే చూడకండి. మీరు అవుట్పుట్ను తప్పనిసరిగా ధృవీకరించాలి (validate). స్ట్రక్చర్డ్ డేటా కోసం స్కీమా వాలిడేషన్ (schema validation) ఉపయోగించండి. టెక్స్ట్ కోసం లెంగ్త్ చెక్స్ (length checks) ఉపయోగించండి.
నా పనుల కోసం నేను మూడు స్థాయిలను (tiers) ఉపయోగిస్తాను:
- టైర్ 1: సంక్లిష్టమైన పనులు. నేను GPT-4o లేదా Claude 3.5 Sonnet ఉపయోగిస్తాను.
- టైర్ 2: క్లాసిఫికేషన్. నేను GPT-4o mini లేదా Gemini 2.0 Flash ఉపయోగిస్తాను.
- టైర్ 3: వేగం ముఖ్యమైన పనులు. నేను Groq లేదా DeepSeek V4 Flash ఉపయోగిస్తాను.
ఈ రూటింగ్ (routing) ద్వారా, ఖరీదైన మోడల్లను అవసరమైనప్పుడు మాత్రమే ఉపయోగించడం వల్ల ఖర్చులు తగ్గుతాయి.
మీ ఎంబెడ్డింగ్ ప్రొవైడర్లను మర్చిపోవద్దు. మీ ఎంబెడ్డింగ్ API విఫలమైతే, మీ RAG పైప్లైన్ పనిచేయడం ఆగిపోతుంది. నేను ప్రతి పైప్లైన్ కోసం రెండు ఎంబెడ్డింగ్ ప్రొవైడర్లను సమాంతరంగా (in parallel) నిర్వహిస్తాను.
నిశ్శబ్ద వైఫల్యాలను (silent failures) గుర్తించడానికి, ఈ మూడు మెట్రిక్లను ట్రాక్ చేయండి:
- రెస్పాన్స్ టైమ్ (Response time). ఒక సంక్లిష్టమైన ప్రాంప్ట్ చాలా వేగంగా రెస్పాన్స్ ఇస్తే, ఆ మోడల్ బహుశా క్యాష్ చేసిన (cached) లేదా ఖాళీ రెస్పాన్స్ను ఇచ్చి ఉండవచ్చు.
- అవుట్పుట్ పొడవు (Output length). చిన్న రెస్పాన్స్లు ప్రమాద సంకేతం (red flag).
- స్కీమా కంప్లయన్స్ (Schema compliance). కంటెంట్ నిజంగా ఉపయోగకరంగా ఉందో లేక కేవలం నల్ (null) వాల్యూస్ మాత్రమే ఉన్నాయో తనిఖీ చేయండి.
మంచి ఫాల్బ్యాక్ చైన్ ప్రతి రిక్వెస్ట్కు ఉపయోగకరమైన రెస్పాన్స్ వచ్చేలా చూస్తుంది. మీరు అదనపు సామర్థ్యం (extra capacity) కోసం చెల్లిస్తారు, కానీ వినియోగదారుని నమ్మకాన్ని కాపాడుకుంటారు.
ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi