𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorialकल1मिनट पढ़ें

NIST ने महत्वपूर्ण बुनियादी ढांचे (critical infrastructure) के लिए AI जोखिम प्रबंधन पर एक नया नोट जारी किया है।

वे चाहते हैं कि AI सिस्टम में परीक्षित (tested) और सत्यापित (verified) सुरक्षा उपाय हों। डेवलपर्स को प्रॉम्प्ट इंजेक्शन (prompt injection) जैसे हमलों को रोकने के लिए ये सुरक्षा उपाय बनाने चाहिए।

सुरक्षा के लिए केवल अच्छी नीयत काफी नहीं है। इसके लिए प्रोग्रामेटिक गार्डरेल्स (programmatic guardrails) की आवश्यकता होती है।

अपने AI को सुरक्षित करने के लिए यहाँ 7 रणनीतियाँ दी गई हैं:

इनपुट वैलिडेशन (Input validation) मॉडल तक पहुँचने से पहले सभी यूजर टेक्स्ट की जाँच करें। दुर्भावनापूर्ण कोड (malicious code) या अप्रत्याशित HTML टैग्स को हटा दें। हमलावरों से आगे रहने के लिए इन नियमों को अक्सर अपडेट करते रहें।
आउटपुट फ़िल्टरिंग (Output filtering) यूज़र्स द्वारा देखे जाने से पहले AI प्रतिक्रियाओं का निरीक्षण करें। हानिकारक सामग्री को रोकने के लिए कीवर्ड लिस्ट या पैटर्न मैचिंग का उपयोग करें। Pydantic जैसे टूल्स यह सुनिश्चित करने में मदद करते हैं कि आउटपुट एक निर्धारित संरचना का पालन करे।
स्ट्रक्चर्ड प्रॉम्प्टिंग (Structured prompting) सिस्टम प्रॉम्प्ट और स्पष्ट डेलीमिटर्स (delimiters) का उपयोग करें। यूजर क्वेरीज़ को ###User Input### जैसे विशिष्ट टोकन में लपेटें (wrap करें)। इससे मॉडल को आपके निर्देशों और यूजर डेटा के बीच अंतर करने में मदद मिलती है।
एडवर्सरियल ट्रेनिंग (Adversarial training) हमले के उदाहरणों का उपयोग करके अपने मॉडल को प्रशिक्षित करें। यह मॉडल को हानिकारक प्रॉम्प्ट्स को पहचानने और अस्वीकार करने की शिक्षा देता है। सुरक्षा में सुधार के लिए आप उच्च-गुणवत्ता वाले, विशिष्ट डेटा पर मॉडल को फाइन-ट्यून (fine-tune) भी कर सकते हैं।
रियल-टाइम मॉनिटरिंग (Real-time monitoring) अपने सिस्टम लॉग और उपयोग के पैटर्न पर लगातार नज़र रखें। अजीब व्यवहार को चिह्नित करने के लिए एनोमली डिटेक्शन (anomaly detection) का उपयोग करें। यह आपको खतरों के बढ़ने से पहले उन पर प्रतिक्रिया देने में मदद करता है।
रेड टीमिंग (Red teaming) वास्तविक दुनिया के हमलों का अनुकरण (simulate) करने के लिए टीमों को काम पर रखें। वे हैकर्स से पहले खामियों और प्रॉम्प्ट इंजेक्शन वेक्टर्स का पता लगा लेते हैं। यह AI-विशिष्ट खतरों पर ध्यान केंद्रित करके मानक परीक्षण से आगे जाता है।
ह्यूमन-इन-द-लूप (Human-in-the-loop) ऐसे चेकपॉइंट्स बनाएं जहाँ किसी व्यक्ति को कार्यों की समीक्षा या अनुमोदन करना आवश्यक हो। यह उच्च-जोखिम वाले कार्यों के लिए महत्वपूर्ण है। यह तब जवाबदेही सुनिश्चित करता है जब गलतियों की भारी कीमत चुकानी पड़ती है।

गार्डरेल्स अब वैकल्पिक नहीं हैं। वे एक मुख्य इंजीनियरिंग आवश्यकता हैं।

स्रोत: https://dev.to/autonainews/7-guardrails-that-stop-your-llm-from-going-rogue-3p3p

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

𝟳 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗧𝗵𝗮𝘁 𝗦𝘁𝗼𝗽 𝗬𝗼𝘂𝗿 𝗟𝗟𝗠 𝗙𝗿𝗼𝗺 𝗚𝗼𝗶𝗻𝗴 𝗥𝗼𝗴𝘂𝗲

पढ़ना जारी रखें

𝗧𝗵𝗲 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗥𝘂𝗹𝗲 𝗙𝗼𝗿 𝗦𝗮𝗳𝗲 𝗔𝗜

एंटरप्राइज़ AI एजेंट्स के लिए गार्डरेल्स

LLM प्रॉम्प्ट इंजेक्शन और गार्डरेल सुरक्षा

𝗟𝗟𝗠 𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗶𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝘀

प्रॉम्प्ट इंजेक्शन डिफेंस: प्रोडक्शन गार्डरेल्स प्लेबुक