𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲

NIST ने महत्वपूर्ण बुनियादी ढांचे (critical infrastructure) के लिए AI जोखिम प्रबंधन पर एक नया नोट जारी किया है।

वे चाहते हैं कि AI सिस्टम में परीक्षित (tested) और सत्यापित (verified) सुरक्षा उपाय हों। डेवलपर्स को प्रॉम्प्ट इंजेक्शन (prompt injection) जैसे हमलों को रोकने के लिए ये सुरक्षा उपाय बनाने चाहिए।

सुरक्षा के लिए केवल अच्छी नीयत काफी नहीं है। इसके लिए प्रोग्रामेटिक गार्डरेल्स (programmatic guardrails) की आवश्यकता होती है।

अपने AI को सुरक्षित करने के लिए यहाँ 7 रणनीतियाँ दी गई हैं:

  • इनपुट वैलिडेशन (Input validation) मॉडल तक पहुँचने से पहले सभी यूजर टेक्स्ट की जाँच करें। दुर्भावनापूर्ण कोड (malicious code) या अप्रत्याशित HTML टैग्स को हटा दें। हमलावरों से आगे रहने के लिए इन नियमों को अक्सर अपडेट करते रहें।

  • आउटपुट फ़िल्टरिंग (Output filtering) यूज़र्स द्वारा देखे जाने से पहले AI प्रतिक्रियाओं का निरीक्षण करें। हानिकारक सामग्री को रोकने के लिए कीवर्ड लिस्ट या पैटर्न मैचिंग का उपयोग करें। Pydantic जैसे टूल्स यह सुनिश्चित करने में मदद करते हैं कि आउटपुट एक निर्धारित संरचना का पालन करे।

  • स्ट्रक्चर्ड प्रॉम्प्टिंग (Structured prompting) सिस्टम प्रॉम्प्ट और स्पष्ट डेलीमिटर्स (delimiters) का उपयोग करें। यूजर क्वेरीज़ को ###User Input### जैसे विशिष्ट टोकन में लपेटें (wrap करें)। इससे मॉडल को आपके निर्देशों और यूजर डेटा के बीच अंतर करने में मदद मिलती है।

  • एडवर्सरियल ट्रेनिंग (Adversarial training) हमले के उदाहरणों का उपयोग करके अपने मॉडल को प्रशिक्षित करें। यह मॉडल को हानिकारक प्रॉम्प्ट्स को पहचानने और अस्वीकार करने की शिक्षा देता है। सुरक्षा में सुधार के लिए आप उच्च-गुणवत्ता वाले, विशिष्ट डेटा पर मॉडल को फाइन-ट्यून (fine-tune) भी कर सकते हैं।

  • रियल-टाइम मॉनिटरिंग (Real-time monitoring) अपने सिस्टम लॉग और उपयोग के पैटर्न पर लगातार नज़र रखें। अजीब व्यवहार को चिह्नित करने के लिए एनोमली डिटेक्शन (anomaly detection) का उपयोग करें। यह आपको खतरों के बढ़ने से पहले उन पर प्रतिक्रिया देने में मदद करता है।

  • रेड टीमिंग (Red teaming) वास्तविक दुनिया के हमलों का अनुकरण (simulate) करने के लिए टीमों को काम पर रखें। वे हैकर्स से पहले खामियों और प्रॉम्प्ट इंजेक्शन वेक्टर्स का पता लगा लेते हैं। यह AI-विशिष्ट खतरों पर ध्यान केंद्रित करके मानक परीक्षण से आगे जाता है।

  • ह्यूमन-इन-द-लूप (Human-in-the-loop) ऐसे चेकपॉइंट्स बनाएं जहाँ किसी व्यक्ति को कार्यों की समीक्षा या अनुमोदन करना आवश्यक हो। यह उच्च-जोखिम वाले कार्यों के लिए महत्वपूर्ण है। यह तब जवाबदेही सुनिश्चित करता है जब गलतियों की भारी कीमत चुकानी पड़ती है।

गार्डरेल्स अब वैकल्पिक नहीं हैं। वे एक मुख्य इंजीनियरिंग आवश्यकता हैं।

स्रोत: https://dev.to/autonainews/7-guardrails-that-stop-your-llm-from-going-rogue-3p3p

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi