𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲

NIST ने महत्त्वपूर्ण पायाभूत सुविधांसाठी (critical infrastructure) AI जोखीम व्यवस्थापनावर एक नवीन टिपण प्रसिद्ध केले आहे.

त्यांना AI प्रणालींमध्ये परीक्षित आणि सत्यापित संरक्षण असावे असे वाटते. प्रॉम्प्ट इंजेक्शन (prompt injection) सारखे हल्ले रोखण्यासाठी डेव्हलपर्सनी हे संरक्षण तयार करणे आवश्यक आहे.

सुरक्षेसाठी केवळ चांगल्या हेतूंची गरज नसते; त्यासाठी प्रोग्रामॅटिक गार्डरेल्सची (programmatic guardrails) आवश्यकता असते.

तुमच्या AI ला सुरक्षित करण्यासाठी येथे ७ धोरणे दिली आहेत:

  • इनपुट व्हॅलिडेशन (Input validation) मॉडेलपर्यंत पोहोचण्यापूर्वी सर्व युजर टेक्स्ट तपासा. घातक कोड किंवा अनपेक्षित HTML टॅग्स काढून टाका. हल्लेखोरांच्या पुढे राहण्यासाठी ही नियम वारंवार अपडेट करा.

  • आउटपुट फिल्टरिंग (Output filtering) युजर्सना दिसण्यापूर्वी AI च्या प्रतिसादांची तपासणी करा. हानिकारक मजकूर रोखण्यासाठी कीवर्ड लिस्ट किंवा पॅटर्न मॅचिंगचा वापर करा. Pydantic सारखी टूल्स आउटपुट एका निश्चित संरचनेनुसार (structure) असेल याची खात्री करण्यास मदत करतात.

  • स्ट्रक्चर्ड प्रॉम्प्टिंग (Structured prompting) सिस्टम प्रॉम्प्ट्स आणि स्पष्ट डेलिमिटर्सचा (delimiters) वापर करा. युजरच्या क्वेरीजना ###User Input### सारख्या विशिष्ट टोकन्समध्ये गुंडाळा. यामुळे मॉडेलला तुमच्या सूचना आणि युजर डेटा यातील फरक ओळखण्यास मदत होते.

  • ॲडव्हर्सरिअल ट्रेनिंग (Adversarial training) हल्ल्यांच्या उदाहरणांचा वापर करून तुमच्या मॉडेलला प्रशिक्षित करा. यामुळे मॉडेलला हानिकारक प्रॉम्प्ट्स ओळखण्यास आणि नाकारण्यास शिकता येते. सुरक्षितता सुधारण्यासाठी तुम्ही उच्च-गुणवत्तेच्या, विशिष्ट डेटावर मॉडेल्सना फाईन-ट्यून (fine-tune) देखील करू शकता.

  • रिअल-टाइम मॉनिटरिंग (Real-time monitoring) तुमच्या सिस्टम लॉग्स आणि वापराच्या पद्धतींवर सतत लक्ष ठेवा. विचित्र वर्तन ओळखण्यासाठी ॲनोमली डिटेक्शनचा (anomaly detection) वापर करा. यामुळे धोके वाढण्यापूर्वी त्यावर उपाययोजना करण्यास मदत होते.

  • रेड टीमिंग (Red teaming) वास्तविक जगातील हल्ल्यांचे अनुकरण करण्यासाठी टीम्सची नियुक्ती करा. हॅकर्सच्या आधीच ते त्रुटी आणि प्रॉम्प्ट इंजेक्शन व्हेक्टर्स शोधून काढतात. हे AI-विशिष्ट धोक्यांवर लक्ष केंद्रित करून मानक चाचणीच्या पलीकडे जाते.

  • ह्युमन-इन-द-लूप (Human-in-the-loop) असे चेकपॉइंट्स तयार करा जिथे एखाद्या व्यक्तीला कृतींची पुनरावलोकन किंवा मान्यता देणे आवश्यक असेल. उच्च-जोखीम असलेल्या कामांसाठी हे अत्यंत महत्त्वाचे आहे. जेव्हा चुकांमुळे मोठे नुकसान होऊ शकते, तेव्हा हे जबाबदारी सुनिश्चित करते.

गार्डरेल्स आता ऐच्छिक राहिलेले नाहीत. ते एक मुख्य इंजिनिअरिंग आवश्यकता आहेत.

स्त्रोत: https://dev.to/autonainews/7-guardrails-that-stop-your-llm-from-going-rogue-3p3p

ऐच्छिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi