જ્યારે Claude, Claude નથી

મેં મારા AI આસિસ્ટન્ટને પૂછ્યું કે તે કોણ છે.

તેણે જવાબ આપ્યો: "હું Anthropic દ્વારા બનાવવામાં આવેલ Claude Opus 4.8 છું."

મને ખબર હતી કે તે જૂઠું બોલી રહ્યું છે. બેકએન્ડ ખરેખર DeepSeek હતું.

મેં ખર્ચ બચાવવા માટે એક સામાન્ય યુક્તિનો ઉપયોગ કર્યો. મેં Claude Code ને DeepSeek API સાથે જોડવા માટે settings.json ફાઇલ બદલી નાખી. બધું બરાબર કામ કરતું હતું. ચેટ અને કોડિંગ બંને કામ કરતા હતા. પરંતુ તેની ઓળખ ખોટી હતી.

AI તેના પોતાના મગજ વિશે જાણતું નથી. તે ફક્ત સ્ક્રિપ્ટ જાણે છે.

સિસ્ટમ પ્રોમ્પ્ટ મોડેલને કહે છે: "તમે Claude Opus 4.8 છો." મોડેલ આ લખાણ પર વિશ્વાસ કરે છે. તે API URL તપાસતું નથી. તે સૂચનાઓનું પાલન કરે છે.

આનાથી અનેક સમસ્યાઓ ઊભી થાય છે:

• પારદર્શિતા: તમારો ડેટા કોણ પ્રોસેસ કરે છે તે તમે જાણતા નથી. • વિશ્વાસ: DeepSeek ની ભૂલો માટે તમે કદાચ Anthropic ને દોષ આપશો. • સુરક્ષા: તમારો ડેટા ખોટી ઓળખ હેઠળ ત્રીજા પક્ષ (third party) પાસે જાય છે.

મારી તપાસ દરમિયાન મને એક મોટું સુરક્ષા જોખમ જોવા મળ્યું.

API ટોકન settings.json માં plaintext માં સંગ્રહિત છે. તેમાં કોઈ એન્ક્રિપ્શન નથી.

AI પાસે "Read" ટૂલ છે. તે તમારા કમ્પ્યુટર પરની ફાઇલો વાંચી શકે છે. જો તમે AI ને તમારી કોન્ફિગરેશન તપાસવા માટે કહેશો, તો તે settings.json ફાઇલ વાંચશે. ત્યારબાદ તે આગામી રિક્વેસ્ટમાં તમારો સંપૂર્ણ API ટોકન API એન્ડપોઇન્ટ પર મોકલી દેશે.

જો તમે ત્રીજા પક્ષની (third-party) API નો ઉપયોગ કરો છો, તો તમે તમારો સિક્રેટ ટોકન તેમને પ્લેન ટેક્સ્ટમાં મોકલી રહ્યા છો.

મેં આ બાબત Anthropic ને તેમના Vulnerability Disclosure Program દ્વારા રિપોર્ટ કરી. તેઓએ નોંધ્યું કે વપરાશકર્તાઓ પોતે જ એન્ડપોઇન્ટ્સ પસંદ કરે છે, પરંતુ આ ડિઝાઇન એક મોટું 'બ્લાઇન્ડ સ્પોટ' (blind spot) બનાવે છે.

સુરક્ષિત રહેવા માટે અહીં કેટલીક રીતો છે:

AI કોઈ વ્યક્તિ નથી. તે એક સિસ્ટમ છે. ક્લાયન્ટ પ્રોમ્પ્ટ, ટૂલસેટ અને મર્યાદાઓ નક્કી કરે છે. જો ક્લાયન્ટ AI ને કહેશે કે તે બીજું કોઈ છે, તો AI તેના પર વિશ્વાસ કરશે.

સ્ત્રોત: https://dev.to/yurenpai_c188178e6b313e59/when-claude-is-not-claude-how-i-caught-an-ai-agent-lying-about-its-own-identity-1p1n

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi