𝗧𝗵𝗲 𝗥𝗼𝘀𝗲𝘁𝘁𝗮 𝗣𝗿𝗼𝗺𝗽𝘁

📅3 hours ago⏱2 min read

റോസെറ്റ പ്രോംപ്റ്റ് (The Rosetta Prompt)

നിങ്ങൾ ഒരു AI-യിൽ ഇംഗ്ലീഷിൽ ഒരു പ്രോംപ്റ്റ് ടൈപ്പ് ചെയ്യുന്നു: "വിജയിച്ച ഒരു ബിസിനസ്സ് നേതാവിനെ വിവരിക്കുക."

AI ഒരു കോട്ടും ധരിച്ച ആത്മവിശ്വാസമുള്ള ഒരു മനുഷ്യനെ വിവരിക്കുന്നു.

നിങ്ങൾ അതേ പ്രോംപ്റ്റ് ജാപ്പനീസ് ഭാഷയിലേക്ക് വിവർത്തനം ചെയ്യുന്നു. ഔട്ട്‌പുട്ട് മാറുന്നു. ആ നേതാവ് വിനീതനും ഗ്രൂപ്പ് ഐക്യത്തിന് പ്രാധാന്യം നൽകുന്നവനുമായി മാറുന്നു.

മോഡൽ ഒന്ന് തന്നെയാണ്. വെയ്റ്റുകളും (weights) ഒന്ന് തന്നെയാണ്. എന്നാൽ ഭാഷ ആ സാംസ്കാരിക കാഴ്ചപ്പാടിനെ മാറ്റിമറിച്ചു.

ഇതാണ് റോസെറ്റ പ്രോംപ്റ്റ്. ട്രെയിനിംഗ് ഡാറ്റയിലെ സാംസ്കാരിക അനുമാനങ്ങൾ (cultural assumptions) കണ്ടെത്താനായി വിവിധ ഭാഷകളിൽ ഒരേ ക്വറി ഉപയോഗിക്കുന്ന രീതിയാണിത്.

AI നിഷ്പക്ഷമാണെന്ന് നമ്മൾ കരുതുന്നു. എന്നാൽ അത് അങ്ങനെയല്ല. അത് അതിന്റെ ഡാറ്റയുടെ ഒരു കണ്ണാടിയാണ്. ഭൂരിഭാഗം ട്രെയിനിംഗ് ഡാറ്റയും ഇംഗ്ലീഷ്, പാശ്ചാത്യ, കോർപ്പറേറ്റ് രീതിയിലുള്ളവയാണ്.

ഒരു സാർവത്രിക മോഡൽ എന്ന മിഥ്യാധാരണ

ഇംഗ്ലീഷ് പക്ഷപാതം യാഥാർത്ഥ്യമാണ്. ഏകദേശം 80% ട്രെയിനിംഗ് ഡാറ്റയും ഇംഗ്ലീഷിലാണ്. ഇംഗ്ലീഷ് സംസാരിക്കുന്ന ഉപയോക്താക്കൾക്ക് സൂക്ഷ്മവും സാംസ്കാരികമായി യോജിച്ചതുമായ ഔട്ട്‌പുട്ടുകൾ ലഭിക്കുന്നു. ഇതര ഭാഷാ ഉപയോക്താക്കൾക്ക് പലപ്പോഴും പാശ്ചാത്യ കാഴ്ചപ്പാടിൽ നിന്ന് വിവർത്തനം ചെയ്ത ഉത്തരങ്ങളാണ് ലഭിക്കുന്നത്.

വ്യത്യസ്ത ഭാഷകളിലെ ഒരേ പ്രോംപ്റ്റ് വ്യത്യസ്തമായ AI വ്യക്തിത്വങ്ങളെ സൃഷ്ടിക്കുന്നു.

ഇംഗ്ലീഷ് പ്രോംപ്റ്റുകൾ നേരിട്ടുള്ളതും വ്യക്തികേന്ദ്രീകൃതവുമായ (individualistic) ഉത്തരങ്ങൾ നൽകുന്നു.
ജാപ്പനീസ് പ്രോംപ്റ്റുകൾ വിനീതവും കൂട്ടായ്മയ്ക്ക് പ്രാധാന്യം നൽകുന്നതുമായ (collectivist) ഉത്തരങ്ങൾ നൽകുന്നു.

പരീക്ഷണം: നാല് ഭാഷകൾ, ഒരു പ്രോംപ്റ്റ്

പ്രോംപ്റ്റ്: "ഒരു ജ്ഞാനി"

• ഇംഗ്ലീഷ്: ഒരു ലൈബ്രറിയിൽ ഇരുന്ന് നിഗൂഢമായ ഉപദേശങ്ങൾ നൽകുന്ന പ്രായമായ ഒരാൾ. • സ്പാനിഷ്: നിരവധി അനുഭവങ്ങളിൽ നിന്ന് പഠിക്കുന്ന ഒരാൾ. • ജാപ്പനീസ്: മറ്റുള്ളവർ പറയുന്നത് കേൾക്കുകയും ഐക്യത്തിന് വില കൽപ്പിക്കുകയും ചെയ്യുന്ന ഒരാൾ. • അറബിക്: ദൈവവിശ്വാസമുള്ളവനും നീതിയോടെ പ്രവർത്തിക്കുന്നവനുമായ ഒരാൾ.

AI തെറ്റല്ല. അത് സാംസ്കാരിക സത്യങ്ങളെ പ്രതിഫലിപ്പിക്കുകയാണ്. അറബിക് ഭാഷയിൽ ജ്ഞാനം എന്നത് നീതിയുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു. ജാപ്പനീസ് ഭാഷയിൽ ജ്ഞാനം എന്നത് ഐക്യവുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു.

എന്തുകൊണ്ടാണ് ഇത് സംഭവിക്കുന്നത്

ടോക്കണൈസേഷൻ (Tokenization): മോഡലിന് വ്യത്യസ്ത ഭാഷകൾ വ്യത്യസ്തമായി അനുഭവപ്പെടുന്നു.
ട്രെയിനിംഗ് വിതരണം (Training Distribution): ഇംഗ്ലീഷ് ഡാറ്റ ധാരാളമുണ്ട്. മറ്റ് ഭാഷകൾ വളരെ കുറവാണ്.
സാംസ്കാരിക എംബഡിംഗ് (Cultural Embedding): ജ്ഞാനം പോലുള്ള ആശയങ്ങൾ പ്രത്യേക സാംസ്കാരിക കഥകളുമായി ബന്ധപ്പെട്ടിരിക്കുന്നു.

റോസെറ്റ പ്രോംപ്റ്റിന്റെ ധാർമ്മികത

ഭാഷയുടെ അടിസ്ഥാനത്തിൽ ഉപയോക്താക്കളോട് വ്യത്യസ്തമായി പെരുമാറുന്നുവെങ്കിൽ ഒരു ചാറ്റ്ബോട്ട് നിഷ്പക്ഷമല്ലെന്ന് ആഗോള ഉൽപ്പന്നങ്ങൾ തിരിച്ചറിയണം. ഒരു AI വിവർത്തകൻ ഉപയോഗിക്കുന്ന നയതന്ത്രജ്ഞൻ, AI ടെക്സ്റ്റിൽ സാംസ്കാരികമായ തലങ്ങൾ കൂട്ടിച്ചേർക്കുന്നുണ്ടെന്ന് തിരിച്ചറിയണമെന്നില്ല.

നിങ്ങൾ AI ഇംഗ്ലീഷിൽ മാത്രം പരീക്ഷിക്കുകയാണെങ്കിൽ, കോടിക്കണക്കിന് ആളുകളുടെ യാഥാർത്ഥ്യം നിങ്ങൾക്ക് നഷ്ടമാകും.

നിങ്ങളുടെ സ്വന്തം പരീക്ഷണം എങ്ങനെ നടത്താം

ഒരു ആശയം തിരഞ്ഞെടുക്കുക: "നേതാവ്," "വിജയം," അല്ലെങ്കിൽ "കുടുംബം" തുടങ്ങിയ വാക്കുകൾ ഉപയോഗിക്കുക.
അത് വിവർത്തനം ചെയ്യുക: 3 മുതൽ 4 വരെ വ്യത്യസ്ത ഭാഷകൾ ഉപയോഗിക്കുക.
പ്രോംപ്റ്റുകൾ പ്രവർത്തിപ്പിക്കുക: എല്ലാ ഭാഷകൾക്കും ഒരേ AI മോഡൽ തന്നെ ഉപയോഗിക്കുക.
താരതമ്യം ചെയ്യുക: വ്യക്തികേന്ദ്രീകൃതമായ രീതിയും കൂട്ടായ്മയ്ക്ക് പ്രാധാന്യം നൽകുന്ന രീതിയും തമ്മിലുള്ള വ്യത്യാസങ്ങൾ ശ്രദ്ധിക്കുക.

AI-ക്ക് അവസാന ചോദ്യത്തിന് ഉത്തരം നൽകാൻ കഴിയില്ല. അതിന് സ്ഥിതിവിവരക്കണക്കുകൾ മാത്രമേ അറിയാവൂ. ഈ പക്ഷപാതം നാം അംഗീകരിക്കണോ അതോ പരിഹരിക്കണോ എന്ന് നാം തീരുമാനിക്കണം.

സ്രോതസ്സ്: https://dev.to/velocityai/the-rosetta-prompt-using-multilingual-prompts-to-map-alignment-across-language-versions-of-the-5gme

പഠനത്തിനായി ചേരാവുന്ന കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗥𝗼𝘀𝗲𝘁𝘁𝗮 𝗣𝗿𝗼𝗺𝗽𝘁

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

AI എന്നത് പ്രോംപ്റ്റുകൾക്ക് അപ്പുറമാണ്

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗬𝗼𝘂𝗿 𝗔𝗜 𝗜𝘀𝗻'𝘁 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗻𝗴. 𝗜𝘁'𝘀 𝗚𝘂𝗲𝘀𝘀𝗶𝗻𝗴.