AI एजंटच्या कृती ठरवण्यासाठी LLM चा वापर करू नका
तुमचा AI एजंट काय करू शकतो हे ठरवण्यासाठी LLM चा वापर करणे थांबवा.
मी AARM नावाच्या एका गटाचा भाग आहे. आम्ही AI एजंट्स सुरक्षित कसे ठेवावेत याचा अभ्यास करतो. आम्ही एका गोष्टीवर सहमत आहोत: नियंत्रण हे कृतीच्या ठिकाणी (point of action) असायला हवे. एखादे टूल कॉल (tool call) रन होण्यापूर्वी तुम्ही त्याची तपासणी केली पाहिजे. एजंट ही तपासणी टाळू शकत नाही. एजंटला "कृपया हे करू नका" असे सांगणे हा सुरक्षा मॉडेल (security model) नाही.
अनेक लोक दुसऱ्या LLM चा वापर 'जज' (judge) म्हणून करतात. एजंटला एखादी कृती करायची असते. तुम्ही ती कृती दुसऱ्या मॉडेलकडे पाठवता. ती कृती सुरक्षित आहे का, असे तुम्ही त्याला विचारता. मॉडेल 'हो' किंवा 'नाही' असे उत्तर देते. हे म्हणजे एका मॉडेलवर दुसरे मॉडेल लक्ष ठेवण्यासारखे आहे. या दृष्टिकोनात दोन मोठे दोष आहेत.
पहिले म्हणजे, जजमध्ये सुद्धा एजंटसारखेच कमकुवत दुवे आहेत. प्रॉम्प्ट इंजेक्शन (prompt injection) किंवा वापरकर्त्याच्या चतुर विनंत्यांद्वारे एजंटला फसवले जाऊ शकते. जर तुम्ही एजंटला फसवू शकत असाल, तर तुम्ही बहुधा जजलाही फसवू शकता. तुम्ही पहिल्या सिस्टमच्या समोर दुसरी अशी सिस्टम ठेवत आहात जी दबावाखाली प्रतिसाद देऊ शकते.
दुसरे म्हणजे, LLMs हे 'डिटरमिनिस्टिक' (deterministic) नसतात. तुम्ही एकाच मॉडेलला एकच प्रश्न दोनदा विचारला तरी तुम्हाला वेगवेगळी उत्तरे मिळू शकतात. हे सॅम्पलिंगमुळे (sampling) घडते. बहुतेक कामांसाठी हे ठीक आहे, पण सुरक्षेच्या दृष्टीने हे एक मोठे संकट (liability) आहे.
एखादा एजंट मंगळवारी डेटाबेस डिलीट करण्यास परवानगी मिळवू शकतो, पण बुधवारी त्याला रोखले जाऊ शकते. असे का झाले याचे कोणतेही तर्कसंगत कारण नसेल. हे केवळ नशिबाचा खेळ (roll of the dice) असू शकतो. तुम्ही हे एखाद्या ऑडिटरला (auditor) समजावून सांगू शकत नाही. जेव्हा रात्री दोन वाजता काहीतरी गडबड होते, तेव्हा तुम्ही यावर अवलंबून राहू शकत नाही.
नियम (rule) वेगळा असतो. नियम सांगतो "प्रोडक्शनवर डिलीट करण्यास नकार द्या." हे प्रत्येक वेळी काम करते. तुम्ही त्याची चाचणी घेऊ शकता. तुम्ही लॉग्सचे (logs) ऑडिट करू शकता. तुम्ही घेतलेल्या निर्णयाची जबाबदारी घेऊ शकता.
मॉडेल्स सुरक्षेसाठी उपयुक्त आहेत, पण अंतिम निर्णय घेणारे द्वार (final gate) म्हणून नाही. मॉडेल्सचा वापर हलक्या कामांसाठी करा:
- विचित्र पॅटर्न शोधणे.
- संवेदनशील मजकूर (sensitive text) चिन्हांकित करणे.
- रिस्क लेव्हल (risk levels) मोजणे.
- विसंगती (anomalies) ओळखणे.
मॉडेलला समस्या चिन्हांकित (flag) करू द्या, पण त्याला द्वार उघडण्याची परवानगी देऊ नका. अंतिम निर्णय अशा सिस्टमवर आधारित असावा जी प्रत्येक वेळी एकच उत्तर देते.
तुमचा एजंट पैसा, प्रोडक्शन डेटा किंवा ग्राहकांच्या माहितीच्या जितका जवळ जाईल, तितकेच हे महत्त्वाचे ठरते. जर एजंटने एखादा चुकीचा परिच्छेद लिहिला, तर ती मोठी समस्या नाही. पण जर एजंटने डेटाबेस डिलीट केला, तर ती मोठी आपत्ती आहे.
अंतिम निर्णय हा 'बोरिंग' असावा. तो एक असा कडक नियम असावा ज्याला एजंट शब्दांच्या फेरफटक्याने बगल देऊ शकणार नाही.
Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn
Optional learning community: https://t.me/GyaanSetuAi