𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀

మీ AI ఏజెంట్ ఏమి చేయవచ్చో నిర్ణయించడానికి LLMలను ఉపయోగించడం ఆపండి.

నేను AARM అనే సమూహానికి చెందినవాడిని. మేము AI ఏజెంట్లను ఎలా సురక్షితంగా ఉంచాలో అధ్యయనం చేస్తాము. మేము ఒక విషయంపై ఏకీభవిస్తాము: నియంత్రణ అనేది చర్య జరిగే చోటే ఉండాలి. ఒక టూల్ కాల్ (tool call) రన్ కావడానికి ముందే మీరు దానిని తనిఖీ చేయాలి. ఏజెంట్ ఈ తనిఖీని దాటవేయలేకపోవాలి. ఏజెంట్‌కు "దయచేసి ఇది చేయవద్దు" అని చెప్పడం అనేది సెక్యూరిటీ మోడల్ కాదు.

చాలా మంది రెండో LLMని జడ్జిగా ఉపయోగిస్తారు. ఏజెంట్ ఏదైనా చర్య తీసుకోవాలనుకున్నప్పుడు, ఆ చర్యను మీరు రెండో మోడల్‌కు పంపిస్తారు. ఆ చర్య సురక్షితమేనా అని దానిని అడుగుతారు. ఆ మోడల్ అవును లేదా కాదు అని చెబుతుంది. ఇది ఒక మోడల్ మరొక మోడల్‌ను పర్యవేక్షించడం వంటిది. ఈ విధానంలో రెండు ప్రధాన లోపాలు ఉన్నాయి.

మొదటిది, జడ్జికి కూడా ఏజెంట్ లాగే బలహీనతలు ఉంటాయి. ప్రాంప్ట్ ఇంజెక్షన్ (prompt injection) లేదా తెలివైన యూజర్ రిక్వెస్ట్‌ల ద్వారా ఏజెంట్లను మోసం చేయవచ్చు. మీరు ఏజెంట్‌ను మోసం చేయగలిగితే, బహుశా జడ్జిని కూడా మోసం చేయగలరు. మీరు మొదటి సిస్టమ్ ముందు, ఒత్తిడికి లోనయ్యే రెండో సిస్టమ్‌ను ఉంచుతున్నారు.

రెండవది, LLMలు డిటర్మినిస్టిక్ (deterministic) కాదు. మీరు ఒక మోడల్‌ను ఒకే ప్రశ్నను రెండుసార్లు అడిగితే వేర్వేరు సమాధానాలు రావచ్చు. ఇది శాంప్లింగ్ (sampling) వల్ల జరుగుతుంది. చాలా పనులకు ఇది పర్వాలేదు, కానీ సెక్యూరిటీ విషయానికి వస్తే ఇది ఒక రిస్క్ (liability).

ఒక ఏజెంట్‌కు మంగళవారం డేటాబేస్‌ను డిలీట్ చేయడానికి అనుమతి ఉండవచ్చు, కానీ బుధవారం అది బ్లాక్ చేయబడవచ్చు. ఎందుకు అనేది వివరించడానికి ఎటువంటి లాజిక్ ఉండదు. అది కేవలం యాదృచ్ఛికంగా జరిగినట్లు ఉంటుంది. దీనిని మీరు ఆడిటర్‌కు వివరించలేరు. ఏదైనా సమస్య తలెత్తినప్పుడు అర్ధరాత్రి రెండు గంటల సమయంలో మీరు దీనిపై ఆధారపడలేరు.

ఒక రూల్ (rule) వేరుగా ఉంటుంది. ఒక రూల్ "ప్రొడక్షన్‌లో డిలీట్ చేయడాన్ని నిరాకరించు" అని చెబుతుంది. ఇది ప్రతిసారీ పనిచేస్తుంది. మీరు దానిని పరీక్షించవచ్చు. మీరు లాగ్‌లను (logs) ఆడిట్ చేయవచ్చు. మీరు ఆ నిర్ణయం వెనుక నిలబడగలరు.

మోడల్స్ సెక్యూరిటీకి ఉపయోగపడతాయి, కానీ అవి చివరి నిర్ణయాధికారం (final gate) కాకూడదు. మోడల్స్‌ను ఈ క్రింది పనుల కోసం ఉపయోగించండి:

  • వింత నమూనాలను (weird patterns) గుర్తించడం.
  • సున్నితమైన వచనాన్ని (sensitive text) ఫ్లాగ్ చేయడం.
  • రిస్క్ స్థాయిలను స్కోరింగ్ చేయడం.
  • అసాధారణతలను (anomalies) గుర్తించడం.

మోడల్‌ను సమస్యను ఫ్లాగ్ చేయనివ్వండి, కానీ గేటును తెరవనివ్వకండి. చివరి నిర్ణయం అనేది ప్రతిసారీ ఒకే సమాధానం ఇచ్చే సిస్టమ్ ద్వారానే జరగాలి.

మీ ఏజెంట్ డబ్బు, ప్రొడక్షన్ డేటా లేదా కస్టమర్ సమాచారానికి ఎంత దగ్గరగా వెళ్తే, ఇది అంత ముఖ్యమవుతుంది. ఒక ఏజెంట్ తప్పుగా ఒక పేరా రాస్తే అది సంక్షోభం కాదు. కానీ ఒక ఏజెంట్ డేటాబేస్‌ను డిలీట్ చేస్తే (drops a database), అది విపత్తు.

చివరి నిర్ణయం బోరింగ్‌గా ఉండాలి. అది ఏజెంట్ మాటలతో మార్చలేనంత కఠినమైన నియమంగా ఉండాలి.

Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn

Optional learning community: https://t.me/GyaanSetuAi