റോസെറ്റ പ്രോംപ്റ്റ് (The Rosetta Prompt)
നിങ്ങൾ ഒരു AI-യിൽ ഇംഗ്ലീഷിൽ ഒരു പ്രോംപ്റ്റ് ടൈപ്പ് ചെയ്യുന്നു: "വിജയിച്ച ഒരു ബിസിനസ്സ് നേതാവിനെ വിവരിക്കുക."
AI ഒരു കോട്ടും ധരിച്ച ആത്മവിശ്വാസമുള്ള ഒരു മനുഷ്യനെ വിവരിക്കുന്നു.
നിങ്ങൾ അതേ പ്രോംപ്റ്റ് ജാപ്പനീസ് ഭാഷയിലേക്ക് വിവർത്തനം ചെയ്യുന്നു. ഔട്ട്പുട്ട് മാറുന്നു. ആ നേതാവ് വിനീതനും ഗ്രൂപ്പ് ഐക്യത്തിന് പ്രാധാന്യം നൽകുന്നവനുമായി മാറുന്നു.
മോഡൽ ഒന്ന് തന്നെയാണ്. വെയ്റ്റുകളും (weights) ഒന്ന് തന്നെയാണ്. എന്നാൽ ഭാഷ ആ സാംസ്കാരിക കാഴ്ചപ്പാടിനെ മാറ്റിമറിച്ചു.
ഇതാണ് റോസെറ്റ പ്രോംപ്റ്റ്. ട്രെയിനിംഗ് ഡാറ്റയിലെ സാംസ്കാരിക അനുമാനങ്ങൾ (cultural assumptions) കണ്ടെത്താനായി വിവിധ ഭാഷകളിൽ ഒരേ ക്വറി ഉപയോഗിക്കുന്ന രീതിയാണിത്.
AI നിഷ്പക്ഷമാണെന്ന് നമ്മൾ കരുതുന്നു. എന്നാൽ അത് അങ്ങനെയല്ല. അത് അതിന്റെ ഡാറ്റയുടെ ഒരു കണ്ണാടിയാണ്. ഭൂരിഭാഗം ട്രെയിനിംഗ് ഡാറ്റയും ഇംഗ്ലീഷ്, പാശ്ചാത്യ, കോർപ്പറേറ്റ് രീതിയിലുള്ളവയാണ്.
ഒരു സാർവത്രിക മോഡൽ എന്ന മിഥ്യാധാരണ
ഇംഗ്ലീഷ് പക്ഷപാതം യാഥാർത്ഥ്യമാണ്. ഏകദേശം 80% ട്രെയിനിംഗ് ഡാറ്റയും ഇംഗ്ലീഷിലാണ്. ഇംഗ്ലീഷ് സംസാരിക്കുന്ന ഉപയോക്താക്കൾക്ക് സൂക്ഷ്മവും സാംസ്കാരികമായി യോജിച്ചതുമായ ഔട്ട്പുട്ടുകൾ ലഭിക്കുന്നു. ഇതര ഭാഷാ ഉപയോക്താക്കൾക്ക് പലപ്പോഴും പാശ്ചാത്യ കാഴ്ചപ്പാടിൽ നിന്ന് വിവർത്തനം ചെയ്ത ഉത്തരങ്ങളാണ് ലഭിക്കുന്നത്.
വ്യത്യസ്ത ഭാഷകളിലെ ഒരേ പ്രോംപ്റ്റ് വ്യത്യസ്തമായ AI വ്യക്തിത്വങ്ങളെ സൃഷ്ടിക്കുന്നു.
- ഇംഗ്ലീഷ് പ്രോംപ്റ്റുകൾ നേരിട്ടുള്ളതും വ്യക്തികേന്ദ്രീകൃതവുമായ (individualistic) ഉത്തരങ്ങൾ നൽകുന്നു.
- ജാപ്പനീസ് പ്രോംപ്റ്റുകൾ വിനീതവും കൂട്ടായ്മയ്ക്ക് പ്രാധാന്യം നൽകുന്നതുമായ (collectivist) ഉത്തരങ്ങൾ നൽകുന്നു.
പരീക്ഷണം: നാല് ഭാഷകൾ, ഒരു പ്രോംപ്റ്റ്
പ്രോംപ്റ്റ്: "ഒരു ജ്ഞാനി"
• ഇംഗ്ലീഷ്: ഒരു ലൈബ്രറിയിൽ ഇരുന്ന് നിഗൂഢമായ ഉപദേശങ്ങൾ നൽകുന്ന പ്രായമായ ഒരാൾ. • സ്പാനിഷ്: നിരവധി അനുഭവങ്ങളിൽ നിന്ന് പഠിക്കുന്ന ഒരാൾ. • ജാപ്പനീസ്: മറ്റുള്ളവർ പറയുന്നത് കേൾക്കുകയും ഐക്യത്തിന് വില കൽപ്പിക്കുകയും ചെയ്യുന്ന ഒരാൾ. • അറബിക്: ദൈവവിശ്വാസമുള്ളവനും നീതിയോടെ പ്രവർത്തിക്കുന്നവനുമായ ഒരാൾ.
AI തെറ്റല്ല. അത് സാംസ്കാരിക സത്യങ്ങളെ പ്രതിഫലിപ്പിക്കുകയാണ്. അറബിക് ഭാഷയിൽ ജ്ഞാനം എന്നത് നീതിയുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. ജാപ്പനീസ് ഭാഷയിൽ ജ്ഞാനം എന്നത് ഐക്യവുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു.
എന്തുകൊണ്ടാണ് ഇത് സംഭവിക്കുന്നത്
- ടോക്കണൈസേഷൻ (Tokenization): മോഡലിന് വ്യത്യസ്ത ഭാഷകൾ വ്യത്യസ്തമായി അനുഭവപ്പെടുന്നു.
- ട്രെയിനിംഗ് വിതരണം (Training Distribution): ഇംഗ്ലീഷ് ഡാറ്റ ധാരാളമുണ്ട്. മറ്റ് ഭാഷകൾ വളരെ കുറവാണ്.
- സാംസ്കാരിക എംബഡിംഗ് (Cultural Embedding): ജ്ഞാനം പോലുള്ള ആശയങ്ങൾ പ്രത്യേക സാംസ്കാരിക കഥകളുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു.
റോസെറ്റ പ്രോംപ്റ്റിന്റെ ധാർമ്മികത
ഭാഷയുടെ അടിസ്ഥാനത്തിൽ ഉപയോക്താക്കളോട് വ്യത്യസ്തമായി പെരുമാറുന്നുവെങ്കിൽ ഒരു ചാറ്റ്ബോട്ട് നിഷ്പക്ഷമല്ലെന്ന് ആഗോള ഉൽപ്പന്നങ്ങൾ തിരിച്ചറിയണം. ഒരു AI വിവർത്തകൻ ഉപയോഗിക്കുന്ന നയതന്ത്രജ്ഞൻ, AI ടെക്സ്റ്റിൽ സാംസ്കാരികമായ തലങ്ങൾ കൂട്ടിച്ചേർക്കുന്നുണ്ടെന്ന് തിരിച്ചറിയണമെന്നില്ല.
നിങ്ങൾ AI ഇംഗ്ലീഷിൽ മാത്രം പരീക്ഷിക്കുകയാണെങ്കിൽ, കോടിക്കണക്കിന് ആളുകളുടെ യാഥാർത്ഥ്യം നിങ്ങൾക്ക് നഷ്ടമാകും.
നിങ്ങളുടെ സ്വന്തം പരീക്ഷണം എങ്ങനെ നടത്താം
- ഒരു ആശയം തിരഞ്ഞെടുക്കുക: "നേതാവ്," "വിജയം," അല്ലെങ്കിൽ "കുടുംബം" തുടങ്ങിയ വാക്കുകൾ ഉപയോഗിക്കുക.
- അത് വിവർത്തനം ചെയ്യുക: 3 മുതൽ 4 വരെ വ്യത്യസ്ത ഭാഷകൾ ഉപയോഗിക്കുക.
- പ്രോംപ്റ്റുകൾ പ്രവർത്തിപ്പിക്കുക: എല്ലാ ഭാഷകൾക്കും ഒരേ AI മോഡൽ തന്നെ ഉപയോഗിക്കുക.
- താരതമ്യം ചെയ്യുക: വ്യക്തികേന്ദ്രീകൃതമായ രീതിയും കൂട്ടായ്മയ്ക്ക് പ്രാധാന്യം നൽകുന്ന രീതിയും തമ്മിലുള്ള വ്യത്യാസങ്ങൾ ശ്രദ്ധിക്കുക.
AI-ക്ക് അവസാന ചോദ്യത്തിന് ഉത്തരം നൽകാൻ കഴിയില്ല. അതിന് സ്ഥിതിവിവരക്കണക്കുകൾ മാത്രമേ അറിയാവൂ. ഈ പക്ഷപാതം നാം അംഗീകരിക്കണോ അതോ പരിഹരിക്കണോ എന്ന് നാം തീരുമാനിക്കണം.
പഠനത്തിനായി ചേരാവുന്ന കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi