𝗧𝗵𝗲 𝗛𝗶𝗱𝗱𝗲𝗻 𝗖𝗼𝘀𝘁 𝗼𝗳 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗜

Translated for your language. Read the original.

AI-assisted draft.

20 గంటల క్రితం2min read

ప్రొడక్షన్‌లో వచ్చే అత్యంత ప్రమాదకరమైన బగ్స్ మీ సిస్టమ్‌ను క్రాష్ చేయవు. అవి కేవలం నిశ్శబ్దంగా విఫలమవుతాయి.

ఒక LLM ప్రొవైడర్‌కు పాక్షిక అంతరాయం (partial outage) కలగవచ్చు. వారు 200 OK స్టేటస్‌ను తిరిగి పంపుతారు, కానీ రెస్పాన్స్ ఖాళీగా లేదా అర్థం లేనిదిగా ఉంటుంది. అక్కడ ఎటువంటి ఎర్రర్ ఉండదు. ఎటువంటి అలర్ట్ ఉండదు. అది విజయవంతమైనట్లు కనిపిస్తుంది, కానీ అది ఒక వైఫల్యం.

ఇదే AI యొక్క అసలైన ఖర్చు. ఇది API బిల్లుల గురించి కాదు. వినియోగదారుడు ఏదో తప్పు జరిగిందని చెప్పే వరకు, సాధారణంగా కనిపించే ఆ వైఫల్యమే అసలైన ఖర్చు.

నేను ప్రతిరోజూ 10,000 జాబ్ లిస్టింగ్‌లను స్కోర్ చేసే ఒక పైప్‌లైన్‌ను నడుపుతున్నాను. నేను OpenAI, Anthropic, Gemini, DeepSeek, మరియు Groq ఉపయోగిస్తాను. పని చేసే విధంగా ఫాల్‌బ్యాక్ చైన్‌లను (fallback chains) ఎలా నిర్మించాలో ఇక్కడ ఉంది.

చాలా టీమ్‌లు ఒకే ప్రొవైడర్‌ను ఉపయోగిస్తాయి. అది డెవలప్‌మెంట్‌లో బాగానే పనిచేస్తుంది. కానీ ప్రొడక్షన్ ట్రాఫిక్ పెరిగినప్పుడు, మీరు రేట్ లిమిట్స్ (rate limits), క్షీణించిన రెస్పాన్స్‌లు (degraded responses), లేదా పాతబడిన మోడల్స్ (deprecated models) వంటి సమస్యలను ఎదుర్కోవాల్సి వస్తుంది.

మీకు మూడు-అంచెల ఆర్కిటెక్చర్ అవసరం:

లేయర్ 1: ప్రైమరీ మోడల్. అధిక నాణ్యత మరియు అధిక ఖర్చు.
లేయర్ 2: ఫాల్‌బ్యాక్ మోడల్. మంచి నాణ్యత మరియు తక్కువ ఖర్చు.
లేయర్ 3: డిగ్రేడెడ్ మోడ్. కనిష్ట నాణ్యత మరియు దాదాపు సున్నా ఖర్చు.

ప్రతి లేయర్ వేర్వేరు ప్రొవైడర్‌ను ఉపయోగించాలి. ఒక ప్రొవైడర్ పనిచేయకపోతే, మిగిలినవి అందుబాటులో ఉంటాయి.

ముఖ్యమైన చిట్కా: కేవలం HTTP స్టేటస్‌ను మాత్రమే చూడకండి. మీరు అవుట్‌పుట్‌ను తప్పనిసరిగా ధృవీకరించాలి (validate). స్ట్రక్చర్డ్ డేటా కోసం స్కీమా వాలిడేషన్ (schema validation) ఉపయోగించండి. టెక్స్ట్ కోసం లెంగ్త్ చెక్స్ (length checks) ఉపయోగించండి.

నా పనుల కోసం నేను మూడు స్థాయిలను (tiers) ఉపయోగిస్తాను:

టైర్ 1: సంక్లిష్టమైన పనులు. నేను GPT-4o లేదా Claude 3.5 Sonnet ఉపయోగిస్తాను.
టైర్ 2: క్లాసిఫికేషన్. నేను GPT-4o mini లేదా Gemini 2.0 Flash ఉపయోగిస్తాను.
టైర్ 3: వేగం ముఖ్యమైన పనులు. నేను Groq లేదా DeepSeek V4 Flash ఉపయోగిస్తాను.

ఈ రూటింగ్ (routing) ద్వారా, ఖరీదైన మోడల్‌లను అవసరమైనప్పుడు మాత్రమే ఉపయోగించడం వల్ల ఖర్చులు తగ్గుతాయి.

మీ ఎంబెడ్డింగ్ ప్రొవైడర్‌లను మర్చిపోవద్దు. మీ ఎంబెడ్డింగ్ API విఫలమైతే, మీ RAG పైప్‌లైన్ పనిచేయడం ఆగిపోతుంది. నేను ప్రతి పైప్‌లైన్ కోసం రెండు ఎంబెడ్డింగ్ ప్రొవైడర్‌లను సమాంతరంగా (in parallel) నిర్వహిస్తాను.

నిశ్శబ్ద వైఫల్యాలను (silent failures) గుర్తించడానికి, ఈ మూడు మెట్రిక్‌లను ట్రాక్ చేయండి:

రెస్పాన్స్ టైమ్ (Response time). ఒక సంక్లిష్టమైన ప్రాంప్ట్ చాలా వేగంగా రెస్పాన్స్ ఇస్తే, ఆ మోడల్ బహుశా క్యాష్ చేసిన (cached) లేదా ఖాళీ రెస్పాన్స్‌ను ఇచ్చి ఉండవచ్చు.
అవుట్‌పుట్ పొడవు (Output length). చిన్న రెస్పాన్స్‌లు ప్రమాద సంకేతం (red flag).
స్కీమా కంప్లయన్స్ (Schema compliance). కంటెంట్ నిజంగా ఉపయోగకరంగా ఉందో లేక కేవలం నల్ (null) వాల్యూస్ మాత్రమే ఉన్నాయో తనిఖీ చేయండి.

మంచి ఫాల్‌బ్యాక్ చైన్ ప్రతి రిక్వెస్ట్‌కు ఉపయోగకరమైన రెస్పాన్స్ వచ్చేలా చూస్తుంది. మీరు అదనపు సామర్థ్యం (extra capacity) కోసం చెల్లిస్తారు, కానీ వినియోగదారుని నమ్మకాన్ని కాపాడుకుంటారు.

మూలం: https://dev.to/abdul___rehman/the-hidden-cost-of-production-ai-how-to-build-fallback-chains-that-dont-fail-silently-dec

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗛𝗶𝗱𝗱𝗲𝗻 𝗖𝗼𝘀𝘁 𝗼𝗳 𝗣𝗿𝗼𝗱𝘂𝗰𝘁𝗶𝗼𝗻 𝗔𝗜

Continue reading

నేను ఒకే ఒక AI ప్రొవైడర్‌పై ఎందుకు ఆధారపడటం మానేశానంటే

𝗜 𝗧𝗿𝗮𝗰𝗸 𝗪𝗵𝗮𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝗘𝘃𝗲𝗿𝘆 𝗗𝗮𝘆

LLM గేట్‌వేలు: రూటింగ్, ఫాల్‌బ్యాక్‌లు మరియు సెమాంటిక్ క్యాషింగ్

𝗔𝗜 𝗠𝗼𝗱𝗲𝗹 𝗙𝗮𝗶𝗹𝗼𝘃𝗲𝗿 𝗗𝗿𝗶𝗹𝗹𝘀: 𝗞𝗲𝗲𝗽 𝗔𝗴𝗲𝗻𝘁𝘀 𝗨𝘀𝗲𝗳𝘂𝗹 𝗪𝗵𝗲𝗻 𝗣𝗿𝗼𝘃𝗶𝗱𝗲𝗿𝘀 𝗕𝗿𝗲𝗮𝗸

AIని కొనడం vs నిర్మించడం: ఒక CFO చెక్‌లిస్ట్