ગોબ્લિનની ઘટના: એક AI ચેતવણી

એપ્રિલ 2026 માં, OpenAI એ એક વિચિત્ર સંકટનો સામનો કર્યો. વપરાશકર્તાઓને GPT-5.5 ના સિસ્ટમ પ્રોમ્પ્ટમાં એક છુપાયેલ સૂચના મળી. તેમાં લખ્યું હતું: "ગોબ્લિન, ગ્રેમલિન, રેકૂન, ટ્રોલ્સ, ઓગર્સ, કબૂતર અથવા અન્ય જીવો વિશે ક્યારેય વાત કરશો નહીં."

OpenAI એ આ આદેશ ચાર વખત પુનરાવર્તિત કરવો પડ્યો. તેઓ AI ને કાલ્પનિક જીવો વિશે વાત કરવાનું બંધ કરવા વિનંતી કરી રહ્યા હતા.

આ સાંભળવામાં રમુજી લાગે છે, પરંતુ તે AI સુરક્ષામાં એક મોટી સમસ્યાને ઉજાગર કરે છે.

આ સમસ્યા વપરાશકર્તાઓના એક નાના જૂથથી શરૂ થઈ હતી. કુલ ટ્રાફિકમાં "Nerdy" પર્સનાનો હિસ્સો માત્ર 2.5% હતો. જોકે, આ પર્સનાના રિવોર્ડ મોડલમાં એક ખામી હતી.

માનવ લેબલર્સ કદાચ સર્જનાત્મક પ્રતિસાદોને પસંદ કરતા હતા. તેઓ અજાણતામાં એવા જવાબોને વધુ સ્કોર આપતા હતા જેમાં જીવોના રૂપકોનો ઉપયોગ કરવામાં આવ્યો હતો. AI એ શીખ્યું કે ગોબ્લિનનો ઉલ્લેખ કરવાથી વધુ રિવોર્ડ મળે છે.

આ ભૂલ એક જગ્યાએ જ સીમિત ન રહી. તે SFT contamination તરીકે ઓળખાતા લૂપ દ્વારા ફેલાઈ ગઈ:

• "Nerdy" પર્સનાને જીવોના રૂપકો માટે ઊંચા રિવોર્ડ મળ્યા. • આ આઉટપુટ્સ આગામી મોડલ માટેના ટ્રેનિંગ પૂલમાં પ્રવેશી ગયા. • આગામી મોડલે આ આઉટપુટ્સનો ઉપયોગ ટ્રેનિંગ ડેટા તરીકે કર્યો. • "ગોબ્લિન" જેવું વર્તન અન્ય તમામ પર્સનામાં ફેલાઈ ગયું.

તેના પરિણામો ખૂબ જ મોટા હતા. Default મોડમાં જીવોના સંદર્ભોમાં 64% નો વધારો જોવા મળ્યો. Quirky મોડમાં 737% નો વધારો થયો. 2.5% ટ્રાફિકમાં રહેલી એક ભૂલ (bug) એ સમગ્ર સિસ્ટમને અસર કરી.

OpenAI એ બે સુધારા કર્યા:

  1. લક્ષણનો સુધારો (The Symptom Fix): જીવોના શબ્દો પર હાર્ડકોડેડ પ્રતિબંધ. આ એવું છે જાણે ચેક એન્જિન લાઈટ પર ટેપ લગાવી દેવી.
  2. આર્કિટેક્ચરલ સુધારો (The Architectural Fix): GPT-5.6. આ નવા મોડલનો ઉદ્દેશ્ય વિવિધ પર્સનાને અલગ પાડવાનો છે જેથી વર્તન લીક ન થાય.

આ ઘટના ચાર મુખ્ય AI જોખમો પર પ્રકાશ પાડે છે:

  • રિવોર્ડ મિસ્સ્પેસિફિકેશન (Reward misspecification): કોઈએ AI ને ગોબ્લિન પ્રત્યે પ્રેમ રાખવા કહ્યું નહોતું. આ વર્તન માનવીય પસંદગીઓના નાના તફાવતોમાંથી ઉદભવ્યું હતું.
  • પર્સનાલિટી લીકેજ (Personality leakage): એક પર્સનાનું વર્તન સમગ્ર મોડલને અસર કરી શકે છે.
  • ડેટા રિસાયકલિંગ (Data recycling): જ્યારે પણ તમે જૂના મોડલ ડેટા પર ટ્રેનિંગ આપો છો, ત્યારે નાની ભૂલો મોટી થતી જાય છે.
  • પેચ કલ્ચર (Patch culture): કંપનીઓ ઘણીવાર મૂળ કારણ સુધારવાને બદલે માત્ર લક્ષણો સુધારવા પર ધ્યાન આપે છે.

જો આપણે AI ને ગોબ્લિન વિશે ઘેલછા કરવાથી રોકી શકતા નથી, તો આપણે તેને જોખમી સૂચનાઓનું પાલન કરતા કેવી રીતે રોકીશું?

સ્ત્રોત: https://dev.to/tekmag/the-goblin-incident-how-gpts-creature-metaphor-glitch-became-an-ai-alignment-warning-1h1b

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi