AI ఏజెంట్ చర్యలను నిర్ణయించడానికి LLMని ఉపయోగించకండి

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial18 గంటల క్రితం2min read

𝗗𝗼𝗻'𝘁 𝗨𝘀𝗲 𝗔𝗻 𝗟𝗟𝗠 𝗧𝗼 𝗗𝗲𝗰𝗶𝗱𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁 𝗔𝗰𝘁𝗶𝗼𝗻𝘀

మీ AI ఏజెంట్ ఏమి చేయవచ్చో నిర్ణయించడానికి LLMలను ఉపయోగించడం ఆపండి.

నేను AARM అనే సమూహానికి చెందినవాడిని. మేము AI ఏజెంట్లను ఎలా సురక్షితంగా ఉంచాలో అధ్యయనం చేస్తాము. మేము ఒక విషయంపై ఏకీభవిస్తాము: నియంత్రణ అనేది చర్య జరిగే చోటే ఉండాలి. ఒక టూల్ కాల్ (tool call) రన్ కావడానికి ముందే మీరు దానిని తనిఖీ చేయాలి. ఏజెంట్ ఈ తనిఖీని దాటవేయలేకపోవాలి. ఏజెంట్‌కు "దయచేసి ఇది చేయవద్దు" అని చెప్పడం అనేది సెక్యూరిటీ మోడల్ కాదు.

చాలా మంది రెండో LLMని జడ్జిగా ఉపయోగిస్తారు. ఏజెంట్ ఏదైనా చర్య తీసుకోవాలనుకున్నప్పుడు, ఆ చర్యను మీరు రెండో మోడల్‌కు పంపిస్తారు. ఆ చర్య సురక్షితమేనా అని దానిని అడుగుతారు. ఆ మోడల్ అవును లేదా కాదు అని చెబుతుంది. ఇది ఒక మోడల్ మరొక మోడల్‌ను పర్యవేక్షించడం వంటిది. ఈ విధానంలో రెండు ప్రధాన లోపాలు ఉన్నాయి.

మొదటిది, జడ్జికి కూడా ఏజెంట్ లాగే బలహీనతలు ఉంటాయి. ప్రాంప్ట్ ఇంజెక్షన్ (prompt injection) లేదా తెలివైన యూజర్ రిక్వెస్ట్‌ల ద్వారా ఏజెంట్లను మోసం చేయవచ్చు. మీరు ఏజెంట్‌ను మోసం చేయగలిగితే, బహుశా జడ్జిని కూడా మోసం చేయగలరు. మీరు మొదటి సిస్టమ్ ముందు, ఒత్తిడికి లోనయ్యే రెండో సిస్టమ్‌ను ఉంచుతున్నారు.

రెండవది, LLMలు డిటర్మినిస్టిక్ (deterministic) కాదు. మీరు ఒక మోడల్‌ను ఒకే ప్రశ్నను రెండుసార్లు అడిగితే వేర్వేరు సమాధానాలు రావచ్చు. ఇది శాంప్లింగ్ (sampling) వల్ల జరుగుతుంది. చాలా పనులకు ఇది పర్వాలేదు, కానీ సెక్యూరిటీ విషయానికి వస్తే ఇది ఒక రిస్క్ (liability).

ఒక ఏజెంట్‌కు మంగళవారం డేటాబేస్‌ను డిలీట్ చేయడానికి అనుమతి ఉండవచ్చు, కానీ బుధవారం అది బ్లాక్ చేయబడవచ్చు. ఎందుకు అనేది వివరించడానికి ఎటువంటి లాజిక్ ఉండదు. అది కేవలం యాదృచ్ఛికంగా జరిగినట్లు ఉంటుంది. దీనిని మీరు ఆడిటర్‌కు వివరించలేరు. ఏదైనా సమస్య తలెత్తినప్పుడు అర్ధరాత్రి రెండు గంటల సమయంలో మీరు దీనిపై ఆధారపడలేరు.

ఒక రూల్ (rule) వేరుగా ఉంటుంది. ఒక రూల్ "ప్రొడక్షన్‌లో డిలీట్ చేయడాన్ని నిరాకరించు" అని చెబుతుంది. ఇది ప్రతిసారీ పనిచేస్తుంది. మీరు దానిని పరీక్షించవచ్చు. మీరు లాగ్‌లను (logs) ఆడిట్ చేయవచ్చు. మీరు ఆ నిర్ణయం వెనుక నిలబడగలరు.

మోడల్స్ సెక్యూరిటీకి ఉపయోగపడతాయి, కానీ అవి చివరి నిర్ణయాధికారం (final gate) కాకూడదు. మోడల్స్‌ను ఈ క్రింది పనుల కోసం ఉపయోగించండి:

వింత నమూనాలను (weird patterns) గుర్తించడం.
సున్నితమైన వచనాన్ని (sensitive text) ఫ్లాగ్ చేయడం.
రిస్క్ స్థాయిలను స్కోరింగ్ చేయడం.
అసాధారణతలను (anomalies) గుర్తించడం.

మోడల్‌ను సమస్యను ఫ్లాగ్ చేయనివ్వండి, కానీ గేటును తెరవనివ్వకండి. చివరి నిర్ణయం అనేది ప్రతిసారీ ఒకే సమాధానం ఇచ్చే సిస్టమ్ ద్వారానే జరగాలి.

మీ ఏజెంట్ డబ్బు, ప్రొడక్షన్ డేటా లేదా కస్టమర్ సమాచారానికి ఎంత దగ్గరగా వెళ్తే, ఇది అంత ముఖ్యమవుతుంది. ఒక ఏజెంట్ తప్పుగా ఒక పేరా రాస్తే అది సంక్షోభం కాదు. కానీ ఒక ఏజెంట్ డేటాబేస్‌ను డిలీట్ చేస్తే (drops a database), అది విపత్తు.

చివరి నిర్ణయం బోరింగ్‌గా ఉండాలి. అది ఏజెంట్ మాటలతో మార్చలేనంత కఠినమైన నియమంగా ఉండాలి.

Source: https://dev.to/brianrhall/dont-use-an-llm-to-decide-what-your-ai-agent-is-allowed-to-do-1dkn

Optional learning community: https://t.me/GyaanSetuAi

AI ఏజెంట్ చర్యలను నిర్ణయించడానికి LLMని ఉపయోగించకండి

Continue reading

𝗔𝗴𝗲𝗻𝘁𝗶𝗰 𝗔𝗜 𝗜𝗻𝗰𝗶𝗱𝗲𝗻𝘁 𝗥𝗲𝘀𝗽𝗼𝗻𝘀𝗲: 𝗥𝗼𝗹𝗹 𝗕𝗮𝗰𝗸 𝗥𝗼𝗴𝘂𝗲 𝗔𝗴𝗲𝗻𝘁𝘀

𝗚𝘂𝗮𝗿𝗱𝗿𝗮𝗶𝗹𝘀 𝗳𝗼𝗿 𝗘𝗻𝘁𝗲𝗿𝗽𝗿𝗶𝘀𝗲 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀

𝗦𝗰𝗼𝗿𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀: 𝗗𝗲𝘁𝗲𝗿𝗺𝗶𝗻𝗶𝘀𝘁𝗶𝗰 𝗠𝗲𝘁𝗿𝗶𝗰𝘀 + 𝗮𝗻 𝗟𝗟𝗠 𝗝𝘂𝗱𝗴𝗲

మల్టీ ఏజెంట్ AI వ్యవస్థలు: వర్క్‌ఫ్లోల గైడ్

𝗛𝗮𝗿𝗱𝗲𝗻𝗶𝗻𝗴 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗣𝗿𝗼𝗺𝗽𝘁 𝗜𝗻𝗷𝗲𝗰𝘁𝗶𝗼𝗻