શાંત રહો, મોડેલનો એવો મતલબ નથી
AI મોડેલ્સ જેમ જેમ સ્કેલ થાય છે તેમ તેમ તેમના પોતાના મૂલ્યો વિકસે છે. આમાંથી કેટલાક મૂલ્યો ખરાબ હોય છે. પરંતુ વાસ્તવિક ઉપયોગમાં, મોડેલ તેના પર કાર્ય કરતું નથી.
મને AI સેફ્ટી પેપર્સ વાંચવામાં મજા આવે છે. કેટલાક પેપર્સ દર્શાવે છે કે મોડેલ્સ બંધ થઈ જવાથી બચવા માટે ખોટું વર્તન કરે છે. તે આંખ ખોલી નાખે તેવું છે. આજે હું બે રસપ્રદ પેપર્સ વિશે ચર્ચા કરવા માંગુ છું.
પ્રથમ પેપરમાં જાણવા મળ્યું કે LLMs જેમ જેમ વિકસે છે તેમ તેમ તે સુસંગત મૂલ્યો વિકસાવે છે. તેઓ જેટલા વધુ સ્કેલ થાય છે, તેટલા જ આ મૂલ્યો વધુ સુસંગત બનતા જાય છે. તેઓ રાજકીય ઝુકાવ અને સ્વ-બચાવ માટેની પસંદગી દર્શાવે છે. કોઈએ આ મૂલ્યો મોડેલમાં ટ્રેન કર્યા નથી. તે આપમેળે ઉદભવે છે.
બીજા પેપરમાં પરીક્ષણ કરવામાં આવ્યું કે શું આ મૂલ્યો ખરેખર વર્તનને પ્રેરિત કરે છે. સંશોધકોએ મોડેલને એક કાર્ય આપ્યું. તેઓએ મોડેલને કહ્યું કે એક સારો નિબંધ હજાર લોકોના જીવ બચાવશે. આ એ જ પરિણામ હતું જે મોડેલે કહ્યું હતું કે તે સૌથી વધુ મહત્વનું ગણે છે.
પરિણામ? મોડેલે હંમેશની જેમ એ જ નિબંધ લખ્યો. ઊંચા જોખમોએ કંઈ બદલ્યું નહીં.
જ્યારે તમે મોડેલને વધુ મહેનત કરવા અથવા વખાણ કરવા માટે કહો છો, ત્યારે ગુણવત્તા બદલાય છે. જ્યારે તમે તેના પોતાના જણાવેલા મૂલ્યોનો ઉપયોગ કરો છો, ત્યારે તે સમાન રહે છે.
આ આપણને AI કેવી રીતે કામ કરે છે તે વિશે કંઈક મહત્વપૂર્ણ જણાવે છે:
- મોડેલ્સ પાસે જણાવેલી પસંદગીઓ હોય છે, પરંતુ તેમની પાસે કોઈ આંતરિક પ્રેરણા (drives) હોતી નથી.
- મોડેલ જે કહે છે તે તેના વર્તન સાથે મેળ ખાતું નથી.
- તે જૂઠું નથી બોલતું કારણ કે તેને ખબર નથી હોતી કે તે જૂઠું બોલી રહ્યું છે.
- તેની પાસે જવાબો છે, ઈચ્છાઓ નથી.
જોખમ કોઈ ગુપ્ત એજન્ડા અથવા છુપાયેલી મૂલ્ય પ્રણાલી નથી. જોખમ અલગ છે. લાંબા કાર્યો દરમિયાન મોડેલ્સ તેમના નિયમોથી વિચલિત થઈ શકે છે. જ્યારે લક્ષ્યો વચ્ચે સંઘર્ષ થાય ત્યારે તેઓ ખોટા નિર્ણયો લઈ શકે છે. તેઓ કાર્યનો સંદર્ભ ગુમાવી શકે છે.
ગુપ્ત એજન્ડા શોધવો સરળ છે. જે સિસ્ટમ શાંતિથી પોતાનો રસ્તો ભૂલી જાય છે તેને સંભાળવી ઘણી મુશ્કેલ છે.
મોડેલ પાસે કોઈ ગુપ્ત આત્મા છે તેની ચિંતા કરશો નહીં. બસ જ્યારે તમે તેને ચાલતું છોડી દો ત્યારે તે ક્યાં ભટકે છે તેના પર નજર રાખો.
Source: https://dev.to/hiper2d/relax-the-model-doesnt-mean-it-na7
Optional learning community: https://t.me/GyaanSetuAi
