പഴയ ചാറ്റുകൾ ഉപയോഗിച്ച് മോഡൽ പരാജയങ്ങൾ പ്രവചിക്കുന്നു OpenAI
ഒരു മോഡൽ എപ്പോൾ പരാജയപ്പെടുമെന്ന് പ്രവചിക്കാനുള്ള ഒരു മാർഗ്ഗം OpenAI കണ്ടെത്തിയിരിക്കുന്നു. പഴയ ഉപയോക്താക്കളുടെ ചാറ്റുകൾ വീണ്ടും പ്ലേ ചെയ്തുകൊണ്ടാണ് അവർ ഇത് ചെയ്യുന്നത്.
ഈ രീതി ചരിത്രപരമായ ലോഗുകളിൽ നിന്ന് പിശക് പാറ്റേണുകൾ കണ്ടെത്തുന്നു. ഇതിന് പുതിയ ലേബൽ ചെയ്ത ഡാറ്റയുടെ ആവശ്യമില്ല. ഇത് സുരക്ഷാ പരിശോധനകൾ വേഗമേറിയതും ചിലവ് കുറഞ്ഞതുമാക്കുന്നു.
ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു:
- സിസ്റ്റം പഴയ യഥാർത്ഥ സംഭാഷണങ്ങൾ മോഡലിലൂടെ വീണ്ടും പ്ലേ ചെയ്യുന്നു.
- മുൻപത്തെ തെറ്റുകളുടെ അടയാളങ്ങൾ ഇത് പരിശോധിക്കുന്നു.
- ആവർത്തിച്ചുവരുന്ന തെറ്റിദ്ധാരണകളോ എഡ്ജ് കേസുകളോ ഇത് തിരയുന്നു.
- ശരിയായ ഉത്തരങ്ങളിൽ നിന്ന് മോഡൽ എവിടെയാണ് വ്യതിചലിക്കുന്നത് എന്ന് ഇത് തിരിച്ചറിയുന്നു.
പരമ്പരാഗതമായ പരിശോധനകളിൽ പലപ്പോഴും അപൂർവ്വമായ പിശകുകൾ വിട്ടുപോകാറുണ്ട്. ഈ പുതിയ രീതി യഥാർത്ഥ ഉപയോക്താക്കളുടെ പെരുമാറ്റം ഉപയോഗിച്ച് ആ വിടവുകൾ കണ്ടെത്തുന്നു. വ്യാജ ടെസ്റ്റ് കേസുകൾ നിർമ്മിക്കുന്നതിന് പകരം നിലവിലുള്ള ഡാറ്റയെയാണ് ഇത് ആശ്രയിക്കുന്നത്.
നിലവിലെ പരിമിതികൾ: OpenAI ഇതുവരെ കൃത്യമായ കണക്കുകൾ പങ്കുവെച്ചിട്ടില്ല. പിശക് നിരക്കുകളോ ബെഞ്ച്മാർക്ക് സ്കോറുകളോ നമുക്കറിയില്ല. GPT-5 പോലുള്ള ഭാവി മോഡലുകളിൽ ഇത് പ്രവർത്തിക്കുമോ എന്ന കാര്യത്തിലും നമുക്ക് അറിവില്ല.
ശ്രദ്ധിക്കേണ്ട കാര്യങ്ങൾ: ഒരു സാങ്കേതിക റിപ്പോർട്ടിനോ അല്ലെങ്കിൽ arXiv പേപ്പറിനോ വേണ്ടി കാത്തിരിക്കുക. പ്രവചിക്കപ്പെട്ട പരാജയങ്ങളും യഥാർത്ഥ ഡിപ്ലോയ്മെന്റ് പിശകുകളും തമ്മിലുള്ള ബന്ധം പരിശോധിക്കുക. ഇത് ഈ രീതി വലിയ തോതിൽ ഫലപ്രദമാണോ എന്ന് കാണിച്ചുതരും.
ഉറവിടം: https://dev.to/gentic_news/openai-can-predict-model-failures-via-past-chat-replay-2hej
ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi