𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀
చాలా AI గార్డ్రైల్ సలహాలు సేల్స్ పిచ్లా అనిపిస్తాయి. అవి కేవలం ఆకర్షణీయమైన డయాగ్రామ్లు మరియు చెక్లిస్ట్లపై దృష్టి పెడతాయి.
నిజమైన ప్రొడక్షన్ భద్రత అంత ఆకర్షణీయంగా ఉండదు. ఇది LLMల కంటే చాలా కాలం ముందు నుండే ఉన్న అంశాలపై ఆధారపడి ఉంటుంది.
నేను ఒక Fortune 100 కంపెనీ కోసం AI ఏజెంట్లను నిర్మించడంలో రెండు సంవత్సరాలు గడిపాను. ఈ ఏజెంట్లు CI/CD వైఫల్యాలు, Kubernetes ఇన్సిడెంట్లు మరియు ఇన్ఫ్రాస్ట్రక్చర్ డాక్యుమెంట్లను నిర్వహిస్తాయి.
వాటిని సురక్షితంగా ఉంచడానికి మేము ఉపయోగించే లేయర్డ్ స్టాక్ (layered stack) ఇక్కడ ఉంది.
ఏజెంట్ బౌండరీ వద్ద ఐడెంటిటీ (Identity). ప్రతి ఏజెంట్ వర్క్లోడ్ ఐడెంటిటీని ఉపయోగిస్తుంది. ఇది ఎప్పుడూ షేర్డ్ క్రెడెన్షియల్స్ను ఉపయోగించదు. IAM స్కోప్ మీ భద్రతా పరిమితి (security ceiling). ఏజెంట్కు డేటాబేస్ యాక్సెస్ అవసరం లేకపోతే, IAM రోల్కు అది ఉండకూడదు. ఇది మీ అత్యంత ముఖ్యమైన నియంత్రణ.
టూల్ అలౌ-లిస్ట్లు (Tool allow-lists). ఏ ఏజెంట్ ఏ టూల్స్ను చూడగలదో ప్లాట్ఫారమ్ నిర్ణయిస్తుంది. కోడ్-సెర్చ్ ఏజెంట్కు ఈమెయిల్ టూల్ ఉండకూడదు. దీని కోసం మేము స్టాటిక్ కాన్ఫిగరేషన్లను ఉపయోగిస్తాము. మేము ఎప్పుడూ డైనమిక్ టూల్ రిజిస్ట్రేషన్ను ఉపయోగించము.
నెట్వర్క్ ఎగ్రెస్ కంట్రోల్స్ (Network egress controls). ఏజెంట్లు కేవలం అలౌ-లిస్ట్ చేయబడిన ఎండ్పాయింట్లను మాత్రమే చేరుకుంటాయి. మేము DNS ఫిల్టరింగ్ మరియు ఎగ్రెస్ ప్రాక్సీని ఉపయోగిస్తాము. ఇది మోడల్ హాలూసినేషన్స్ (hallucinations) తప్పు URLలను చేరుకోకుండా నిరోధిస్తుంది.
సీక్రెట్స్ ఐసోలేషన్ (Secrets isolation). ఏజెంట్లు ఎప్పుడూ రా (raw) సీక్రెట్స్ను చూడవు. టూల్ కాల్స్ సమయంలో ఇంజెక్ట్ చేయబడే షార్ట్-లివ్డ్ సెషన్ టోకెన్లను మేము ఉపయోగిస్తాము. ప్రాంప్ట్లో ఎప్పుడూ సీక్రెట్స్ను ఉంచకండి. ప్రాంప్ట్లో ఉన్న ఏదైనా లాగ్ చేయబడవచ్చు లేదా రీప్లే చేయబడవచ్చు.
పూర్తి ఆడిట్ ట్రైల్స్ (Full audit trails). మీరు ప్రతి మోడల్ కాల్ మరియు ప్రతి టూల్ కాల్ను లాగ్ చేయాలి. ఇందులో ఇన్పుట్లు, అవుట్పుట్లు, టూల్ ఆర్గ్యుమెంట్స్ మరియు యూజర్ ఐడెంటిటీ ఉంటాయి. ఒక ఇన్సిడెంట్ సమయంలో ఏమి తప్పు జరిగిందో అర్థం చేసుకోవడానికి మీకు ఇది అవసరం.
మానవ ఆమోదం (Human approval). సిస్టమ్ ఆఫ్ రికార్డ్ను మార్చే ఏ చర్యకైనా, ప్లాట్ఫారమ్ ఆగాలి. ఒక మనిషి ఆ చర్యను ఆమోదించాలి. ఇది మీ సేఫ్టీ నెట్.
ఈ సాధారణ తప్పులను నివారించండి:
ప్రాంప్ట్-లెవల్ ఇన్స్ట్రక్షన్స్. మోడల్కు "X చేయవద్దు" అని చెప్పడం భద్రత కాదు. వినియోగదారు మోడల్ను మోసం చేయవచ్చు. నియంత్రణను IAM లేదా టూల్ లేయర్కు మార్చండి.
జనరిక్ PII ఫిల్టర్లు. వీటిలో ఎర్రర్ రేట్లు ఎక్కువగా ఉంటాయి. IAM ద్వారా డేటా యాక్సెస్ను పరిమితం చేయడం మంచిది, తద్వారా ఏజెంట్ సెన్సిటివ్ సమాచారాన్ని చూడదు.
గార్డ్రైల్ మోడల్స్. మొదటి మోడల్ను గ్రేడ్ చేయడానికి రెండవ LLMని ఉపయోగించడం వల్ల లేటెన్సీ (latency) పెరుగుతుంది. ఇది నిజమైన భద్రతా నియంత్రణ కాదు. ఇది కేవలం ఒక మోడల్ ఎంసెంబుల్ మాత్రమే.
నేను కష్టపడి నేర్చుకున్న పాఠాలు:
ప్రాంప్ట్ల కంటే ముందు IAMని సరిచేయండి. నేను IAM రోల్స్ను కఠినతరం చేయాల్సింది పోయి, ప్రాంప్ట్లను ట్యూన్ చేయడంలో సమయాన్ని వృధా చేశాను. నియంత్రణలను స్టాక్లో వీలైనంత తక్కువ స్థాయిలో (as low in the stack as possible) ఉంచండి.
మీ ఆడిట్ ట్రైల్ను మరింత సమగ్రంగా నిర్మించుకోండి. కేవలం ప్రాంప్ట్ మరియు సమాధానాన్ని మాత్రమే సేకరించడం సరిపోదు. మీకు మధ్యంతర టూల్ కాల్స్ మరియు ఆర్గ్యుమెంట్స్ కూడా అవసరం. ప్రారంభంలోనే లాగ్ చేయడం తక్కువ ఖర్చుతో కూడుకున్నది, కానీ తర్వాత సరిదిద్దడం ఖరీదైనది.
ఏజెంట్ కమ్యూనికేషన్ను పరిమితం చేయండి. మల్టీ-ఏజెంట్ సిస్టమ్స్లో, ఏజెంట్-టు-ఏజెంట్ కాల్స్పై ఒక కఠినమైన పరిమితిని విధించండి. ఇది వరుసగా వచ్చే వైఫల్యాలను నివారిస్తుంది.
భారీ స్థాయిలో AI భద్రత అనేది కేవలం మోడల్కు సంబంధించిన సమస్య కాదు. ఇది ఒక ప్లాట్ఫారమ్ సమస్య. మీ ఏజెంట్లను కూడా ఇతర ప్రొడక్షన్ సిస్టమ్స్ లాగే అదే ఆపరేషనల్ క్రమశిక్షణతో పరిగణించండి.
ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi