𝗬𝗼𝘂𝗿 𝗔𝗜 𝗣𝗿𝗼𝘃𝗶𝗱𝗲𝗿 𝗜𝘀 𝗮 𝗦𝗶𝗻𝗴𝗹𝗲 𝗣𝗼𝗶𝗻𝘁 𝗼𝗳 𝗙𝗮𝗶𝗹𝘂𝗿𝗲
గత శుక్రవారం, అమెరికా వాణిజ్య శాఖ Anthropic కి ఒక లేఖ పంపింది. అదే సాయంత్రం నాటికి, Fable 5 మరియు Mythos 5 మాయమైపోయాయి.
అవి డిప్రికేట్ (deprecated) చేయబడలేదు. వాటి వేగాన్ని తగ్గించలేదు (throttled). అవి కేవలం మాయమైపోయాయి.
API కాల్స్ 404 ఎర్రర్లను చూపించాయి. లైవ్ సెషన్లు సంభాషణ మధ్యలోనే విఫలమయ్యాయి. ఆ మోడల్స్పై ఆధారపడిన అప్లికేషన్లు పనిచేయడం ఆగిపోయాయి. లాంచ్ అయిన మూడు రోజులకే ఇది జరిగింది. ఎటువంటి హెచ్చరిక గానీ, మైగ్రేషన్ విండో (migration window) గానీ లేదు.
ఆ మోడల్స్ కొత్తవి కావడంతో మేము అదృష్టవంతులమయ్యాము. వాటిపై ఇంకా ఎవరూ లోతైన ఆధారపడటం (dependencies) లేదు. మీరు ఆరు నెలల నుండి ప్రతిరోజూ ఉపయోగిస్తున్న ఒక మోడల్కు ఇలా జరిగితే ఊహించుకోండి.
ఒక ప్రభుత్వ లేఖ మీ ప్రైమరీ డేటాబేస్ను మూసివేసే అవకాశం ఉంటే, మీరు దాన్ని ఫెయిల్ఓవర్ (failover) లేకుండా నడుపుతారా? నడుపరు. అయినప్పటికీ, చాలా టీమ్లు AI విషయంలో ఇలాగే చేస్తున్నాయి.
చాలా టీమ్లు AIని విద్యుత్తులా భావిస్తాయి. మీరు స్విచ్ వేస్తే వెలుతురు వస్తుందని ఆశిస్తారు. దాని మూలం గురించి లేదా పవర్ ఆగిపోతే ఏమవుతుంది అనే దాని గురించి మీరు ఆలోచించరు. మీరు ఒక మోడల్ను ఎంచుకుంటారు, ఒక ఎండ్పాయింట్ను హార్డ్కోడ్ చేస్తారు మరియు షిప్ చేస్తారు.
ఇది ఇంజనీరింగ్ కాదు. ఇది కేవలం ఆశ మీద ఆధారపడిన ఆర్కిటెక్చర్ (hope-driven architecture).
ఈ క్రింది కారణాల వల్ల మోడల్స్ మాయమైపోవచ్చు:
- నియంత్రణ కారణాలు (Regulatory reasons)
- విధానపరమైన మార్పులు (Policy changes)
- భౌగోళిక రాజకీయ సమస్యలు (Geopolitical issues)
Anthropic పరిస్థితి అనేది బగ్ లేదా ఇన్ఫ్రాస్ట్రక్చర్ వైఫల్యం కాదు. అది ఒక నియంత్రణ కిల్ స్విచ్ (regulatory kill switch).
మీరు మీ మోడల్ లేయర్లో స్థితిస్థాపకతను (resilience) నిర్మించాలి. ఈ ప్యాటర్న్స్ని ఉపయోగించండి:
- మీ మోడల్ కాల్స్ను అబ్స్ట్రాక్ట్ (Abstract) చేయండి. మీ అప్లికేషన్కు ఏ ప్రొవైడర్ రెస్పాన్స్ను అందిస్తుందనే దానితో సంబంధం లేకుండా ఉండటానికి ఒక ఇంటర్ఫేస్ను ఉపయోగించండి.
- బహుళ ప్రొవైడర్లను ఉపయోగించండి. ఒక ప్రొవైడర్ను మార్చడం అనేది కేవలం కాన్ఫిగరేషన్ మార్పు మాత్రమే కావాలి, మొత్తం కోడ్ను మళ్ళీ రాయడం కాకూడదు.
- ఓపెన్-వెయిట్ (open-weight) మోడల్స్ను ఉపయోగించండి. మీరు మోడల్ను స్వయంగా నడుపుతుంటే, ఎవరూ దానిని రిమోట్గా ఆపలేరు. గ్రిడ్ ఆగిపోయినప్పుడు ఇవి జనరేటర్లలా పనిచేస్తాయి.
- గ్రేస్ఫుల్ డిగ్రేడేషన్ (graceful degradation) అమలు చేయండి. అప్లికేషన్ పూర్తిగా విఫలం కావడం కంటే, చిన్న లేదా పాత మోడల్ పనిచేయడం మేలు.
మీ ఎర్రర్ రేట్లను పర్యవేక్షించండి. అవి పెరిగితే, వెంటనే ట్రాఫిక్ను మీ ఫాల్బ్యాక్ (fallback) కు మళ్లించండి.
మీ AIని ఇతర కీలకమైన ప్రొడక్షన్ డిపెండెన్సీలలాగే పరిగణించండి. వైఫల్యానికి సిద్ధంగా ఉండేలా (Design for failure) ప్లాన్ చేయండి.
మీ ప్రొవైడర్ విఫలమవుతారని మీ ఆర్కిటెక్చర్ ఊహిస్తుందా? లేకపోతే, మీరు ప్రమాదంలో ఉన్నారు.
మీరు మీ స్టాక్లో మల్టీ-ప్రొవైడర్ ఫాల్బ్యాక్ను నిర్మించారా? కామెంట్లలో నాకు చెప్పండి.
Source: https://dev.to/aws/your-ai-provider-is-a-single-point-of-failure-26i2
Optional learning community: https://t.me/GyaanSetuAi