𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial१७ तासांपूर्वी2min read

AI एजंटच्या कृती ठरवण्यासाठी LLM चा वापर करू नका

तुमचा AI एजंट काय करू शकतो हे ठरवण्यासाठी LLM चा वापर करणे थांबवा.

मी AARM नावाच्या एका गटाचा भाग आहे. आम्ही AI एजंट्स सुरक्षित कसे ठेवावेत याचा अभ्यास करतो. आम्ही एका गोष्टीवर सहमत आहोत: नियंत्रण हे कृतीच्या ठिकाणी (point of action) असायला हवे. एखादे टूल कॉल (tool call) रन होण्यापूर्वी तुम्ही त्याची तपासणी केली पाहिजे. एजंट ही तपासणी टाळू शकत नाही. एजंटला "कृपया हे करू नका" असे सांगणे हा सुरक्षा मॉडेल (security model) नाही.

अनेक लोक दुसऱ्या LLM चा वापर 'जज' (judge) म्हणून करतात. एजंटला एखादी कृती करायची असते. तुम्ही ती कृती दुसऱ्या मॉडेलकडे पाठवता. ती कृती सुरक्षित आहे का, असे तुम्ही त्याला विचारता. मॉडेल 'हो' किंवा 'नाही' असे उत्तर देते. हे म्हणजे एका मॉडेलवर दुसरे मॉडेल लक्ष ठेवण्यासारखे आहे. या दृष्टिकोनात दोन मोठे दोष आहेत.

पहिले म्हणजे, जजमध्ये सुद्धा एजंटसारखेच कमकुवत दुवे आहेत. प्रॉम्प्ट इंजेक्शन (prompt injection) किंवा वापरकर्त्याच्या चतुर विनंत्यांद्वारे एजंटला फसवले जाऊ शकते. जर तुम्ही एजंटला फसवू शकत असाल, तर तुम्ही बहुधा जजलाही फसवू शकता. तुम्ही पहिल्या सिस्टमच्या समोर दुसरी अशी सिस्टम ठेवत आहात जी दबावाखाली प्रतिसाद देऊ शकते.

दुसरे म्हणजे, LLMs हे 'डिटरमिनिस्टिक' (deterministic) नसतात. तुम्ही एकाच मॉडेलला एकच प्रश्न दोनदा विचारला तरी तुम्हाला वेगवेगळी उत्तरे मिळू शकतात. हे सॅम्पलिंगमुळे (sampling) घडते. बहुतेक कामांसाठी हे ठीक आहे, पण सुरक्षेच्या दृष्टीने हे एक मोठे संकट (liability) आहे.

एखादा एजंट मंगळवारी डेटाबेस डिलीट करण्यास परवानगी मिळवू शकतो, पण बुधवारी त्याला रोखले जाऊ शकते. असे का झाले याचे कोणतेही तर्कसंगत कारण नसेल. हे केवळ नशिबाचा खेळ (roll of the dice) असू शकतो. तुम्ही हे एखाद्या ऑडिटरला (auditor) समजावून सांगू शकत नाही. जेव्हा रात्री दोन वाजता काहीतरी गडबड होते, तेव्हा तुम्ही यावर अवलंबून राहू शकत नाही.

नियम (rule) वेगळा असतो. नियम सांगतो "प्रोडक्शनवर डिलीट करण्यास नकार द्या." हे प्रत्येक वेळी काम करते. तुम्ही त्याची चाचणी घेऊ शकता. तुम्ही लॉग्सचे (logs) ऑडिट करू शकता. तुम्ही घेतलेल्या निर्णयाची जबाबदारी घेऊ शकता.

मॉडेल्स सुरक्षेसाठी उपयुक्त आहेत, पण अंतिम निर्णय घेणारे द्वार (final gate) म्हणून नाही. मॉडेल्सचा वापर हलक्या कामांसाठी करा:

विचित्र पॅटर्न शोधणे.
संवेदनशील मजकूर (sensitive text) चिन्हांकित करणे.
रिस्क लेव्हल (risk levels) मोजणे.
विसंगती (anomalies) ओळखणे.

मॉडेलला समस्या चिन्हांकित (flag) करू द्या, पण त्याला द्वार उघडण्याची परवानगी देऊ नका. अंतिम निर्णय अशा सिस्टमवर आधारित असावा जी प्रत्येक वेळी एकच उत्तर देते.

तुमचा एजंट पैसा, प्रोडक्शन डेटा किंवा ग्राहकांच्या माहितीच्या जितका जवळ जाईल, तितकेच हे महत्त्वाचे ठरते. जर एजंटने एखादा चुकीचा परिच्छेद लिहिला, तर ती मोठी समस्या नाही. पण जर एजंटने डेटाबेस डिलीट केला, तर ती मोठी आपत्ती आहे.

अंतिम निर्णय हा 'बोरिंग' असावा. तो एक असा कडक नियम असावा ज्याला एजंट शब्दांच्या फेरफटक्याने बगल देऊ शकणार नाही.

Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn

Optional learning community: https://t.me/GyaanSetuAi

𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀

Continue reading

एजेंटिक एआय इन्सिडेंट रिस्पॉन्स: अनियंत्रित एजंट्सना रोल बॅक करा

𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

AI एजंट्सचे मूल्यांकन: डिटरमिनिस्टिक मेट्रिक्स + एक LLM जज

मल्टी एजंट एआय सिस्टम्स: वर्कफ्लोसाठी एक मार्गदर्शक

प्रॉम्प्ट इंजेक्शनपासून AI एजंट्सना अधिक सुरक्षित करणे