LLM-as-Judge ની વિશ્વસનીયતા ૨૦૨૬ માં

આજે મોટાભાગના લીડરબોર્ડ્સ અને ઇવેલ્યુએશન પોસ્ટ્સ LLM-as-judge ટૂલ્સ દ્વારા સંચાલિત થાય છે.

જૂન ૨૦૨૬ ના આઠ નવા અભ્યાસો એક મોટી સમસ્યા દર્શાવે છે. આ અભ્યાસો દર્શાવે છે કે AI જજ ઘણીવાર પોતાની સાથે જ અસંમત થાય છે. તેઓ સિક્કો ઉછાળવા જેવું કામ કરે છે.

ડેટા ત્રણ મુખ્ય નિષ્ફળતાઓ દર્શાવે છે:

• ઓછી વિશ્વસનીયતા (Low Reliability): એક અભ્યાસમાં ૨૯ કાર્યો પર બે OpenAI જજનું પરીક્ષણ કરવામાં આવ્યું હતું. તેઓએ દરેક પરીક્ષણ ૫૦ વખતનું હતું. પરિણામો એટલા અસંગત હતા કે લેખકોએ તેને "The Coin Flip Judge" કહ્યો હતો. એક જ વારનું ચુકાદો મોટે ભાગે નોઈઝ (noise) છે.

• કમ્પ્યુટ સેન્સિટિવિટી (Compute Sensitivity): ટેસ્ટ દરમિયાન તમે કેટલું કમ્પ્યુટિંગ મંજૂરી આપો છો તેના આધારે મોડેલનું પ્રદર્શન બદલાય છે. કોઈ મોડેલ લીડરબોર્ડ પર માત્ર એટલા માટે ખરાબ દેખાઈ શકે છે કારણ કે ટેસ્ટમાં ટોકન કેપ (token cap) ઓછી હતી. બજેટ બદલો અને રેન્કિંગ બદલાઈ જશે.

• બ્રાન્ડ બાયસ (Brand Bias): જજ GPT અથવા Claude જેવા જાણીતા નામો માટે પૂર્વગ્રહ દર્શાવે છે. આ પૂર્વગ્રહ પરિણામોને પક્ષપાતી બનાવે છે અને સરખામણીને અન્યાયી બનાવે છે.

તમારે કેવી રીતે કાર્ય કરવું જોઈએ:

કયો જજ સૌથી વધુ સ્કોર કરે છે તે પૂછવાનું બંધ કરો. કયું જજ ટૂલ તમને માણસો સામે સૌથી સસ્તામાં વેરિફાઈ કરવામાં મદદ કરે છે તે પૂછો.

સ્ત્રોત: https://dev.to/bean_bean/llm-as-judge-reliability-in-2026-what-8-june-studies-actually-show-eca