𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀
बहुतेक AI गार्डरेल सल्ला एखाद्या विक्रीच्या प्रस्तावासारखा (sales pitch) वाटतो. तो केवळ चकचकीत आकृत्या आणि चेकलिस्टवर लक्ष केंद्रित करतो.
खऱ्या प्रोडक्शन सेफ्टीमध्ये (production safety) तसा ग्लॅमर नसतो. ती LLMs च्या आधीपासून अस्तित्वात असलेल्या गोष्टींवर अवलंबून असते.
मी एका Fortune 100 कंपनीसाठी AI एजंट्स तयार करण्यात दोन वर्षे घालवली. हे एजंट्स CI/CD फेल्युअर, Kubernetes घटना आणि इन्फ्रास्ट्रक्चर डॉक्युमेंट्स हाताळतात.
त्यांना सुरक्षित ठेवण्यासाठी आम्ही वापरत असलेले लेअर्ड स्टॅक (layered stack) खालीलप्रमाणे आहे.
एजंटच्या सीमेवर ओळख (Identity). प्रत्येक एजंट 'वर्कload identity' वापरतो. तो कधीही सामायिक क्रेडेंशियल्स (shared credentials) वापरत नाही. IAM स्कोप ही तुमची सुरक्षा मर्यादा (security ceiling) आहे. जर एजंटला डेटाबेस ॲक्सेसची गरज नसेल, तर IAM रोलकडे तो नसावा. हे तुमचे सर्वात महत्त्वाचे नियंत्रण आहे.
टूल अलाऊ-लिस्ट (Tool allow-lists). प्लॅटफॉर्म ठरवते की एजंट कोणते टूल्स पाहू शकतो. कोड-सर्च एजंटकडे ईमेल टूल नसावे. आम्ही यासाठी स्टॅटिक कॉन्फिग्स (static configs) वापरतो. आम्ही कधीही डायनॅमिक टूल रजिस्ट्रेशन वापरत नाही.
नेटवर्क एग्रेस कंट्रोल्स (Network egress controls). एजंट्स फक्त अलाऊलिस्टेड एंडपॉइंट्सना (allowlisted endpoints) पोहोचू शकतात. आम्ही DNS फिल्टरिंग आणि एग्रेस प्रॉक्सी वापरतो. यामुळे मॉडेलच्या हॅलुसिनेशन्समुळे (hallucinations) चुकीच्या URL वर जाण्यापासून रोखले जाते.
सीक्रेट्स आयसोलेशन (Secrets isolation). एजंट्स कधीही रॉ सीक्रेट्स (raw secrets) पाहत नाहीत. आम्ही टूल कॉल्स दरम्यान इंजेक्ट केलेले शॉर्ट-लिव्हड सेशन टोकन्स (short-lived session tokens) वापरतो. प्रॉम्प्टमध्ये कधीही सीक्रेट्स टाकू नका. प्रॉम्प्टमधील कोणतीही गोष्ट लॉग किंवा रिप्ले केली जाऊ शकते.
पूर्ण ऑडिट ट्रेल्स (Full audit trails). तुम्हाला प्रत्येक मॉडेल कॉल आणि प्रत्येक टूल कॉल लॉग करणे आवश्यक आहे. यामध्ये इनपुट्स, आउटपुट्स, टूल आर्ग्युमेंट्स आणि युजर आयडेंटिटीचा समावेश होतो. एखाद्या घटनेदरम्यान काय चुकले हे समजून घेण्यासाठी तुम्हाला याची गरज असते.
मानवी मंजुरी (Human approval). सिस्टम ऑफ रेकॉर्डमध्ये (system of record) बदल करणाऱ्या कोणत्याही कृतीसाठी प्लॅटफॉर्मने थांबणे आवश्यक आहे. एखाद्या माणसाने ती कृती मंजूर करणे आवश्यक आहे. ही तुमची सेफ्टी नेट (safety net) आहे.
या सामान्य चुका टाळा:
प्रॉम्प्ट-लेव्हल सूचना (Prompt-level instructions). मॉडेलला "X कधीही करू नकोस" असे सांगणे म्हणजे सुरक्षा नाही. वापरकर्ता मॉडेलला फसवू शकतो. नियंत्रण IAM किंवा टूल लेयरवर हलवा.
जेनेरिक PII फिल्टर्स (Generic PII filters). यामध्ये त्रुटींचे प्रमाण जास्त असते. IAM द्वारे डेटा ॲक्सेस मर्यादित करणे अधिक चांगले आहे जेणेकरून एजंटला संवेदनशील माहिती कधीही दिसणार नाही.
गार्डरेल मॉडेल्स (Guardrail models). पहिल्या मॉडेलचे मूल्यांकन करण्यासाठी दुसरे LLM वापरल्याने लॅटन्सी (latency) वाढते. हे खरे सुरक्षा नियंत्रण नाही. ते केवळ एक मॉडेल एन्सेम्बल (model ensemble) आहे.
मी अनुभवातून शिकलेले धडे:
प्रॉम्प्ट्सच्या आधी IAM फिक्स करा. मी प्रॉम्प्ट्स ट्यून करण्यात वेळ वाया घालवला, जेव्हा मला IAM रोल्स अधिक कडक करायला हवे होते. नियंत्रण शक्य तितक्या खालच्या स्टॅकवर (stack) हलवा.
तुमचा ऑडिट ट्रेल (audit trail) अधिक विस्तृत बनवा. फक्त प्रॉम्प्ट आणि उत्तर कॅप्चर करणे पुरेसे नाही. तुम्हाला मध्यवर्ती टूल कॉल्स (tool calls) आणि आर्ग्युमेंट्सची (arguments) आवश्यकता आहे. सुरुवातीला लॉग करणे स्वस्त असते, परंतु नंतर सुधारणे महाग पडते.
एजंटमधील संवाद मर्यादित ठेवा. मल्टी-एजंट सिस्टममध्ये (multi-agent systems), एजंट-टू-एजंट कॉल्सवर एक कडक मर्यादा (hard cap) सेट करा. यामुळे कॅस्केडिंग फेल्युअर (cascading failures) टाळता येतात.
मोठ्या प्रमाणावरील AI सुरक्षा ही मॉडेलची समस्या नाही. ती प्लॅटफॉर्मची समस्या आहे. तुमच्या एजंट्सना इतर कोणत्याही प्रोडक्शन सिस्टमप्रमाणेच (production system) ऑपरेशनल शिस्तीने हाताळा.
पर्यायी लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi