તમને જે LLM બેન્ચમાર્ક સ્કોરની જરૂર છે તે અસ્તિત્વમાં નથી
મોટાભાગના LLM લીડરબોર્ડ્સ તમને છેતરે છે.
ગયા મહિને મેં એક એજન્ટિક પાઇપલાઇન (agentic pipeline) માટે મોડેલ્સનું મૂલ્યાંકન કર્યું હતું. મને કોડ જનરેશન અને મલ્ટી-સ્ટેપ રીઝનિંગ (multi-step reasoning) ની જરૂર હતી. મેં એક લોકપ્રિય લીડરબોર્ડ પરના ટોપ મોડેલને પસંદ કર્યું. મેં તેને ઇમ્પ્લીમેન્ટ કર્યું. તે મૂળભૂત ટૂલ-યુઝ (tool-use) કાર્યોમાં નિષ્ફળ ગયું.
લીડરબોર્ડ સ્કોર સાચો હતો. પરંતુ તે મારા કામ માટે નકામો હતો.
પબ્લિક બેન્ચમાર્ક મોડેલ્સનું અલગથી પરીક્ષણ કરે છે. પ્રોડક્શનમાં, તમે એજન્ટ્સ ચલાવો છો. એજન્ટ્સ ટૂલ્સને કોલ કરે છે, વેબ સર્ચ કરે છે અને કોડ એક્ઝિક્યુટ કરે છે. સ્ટાન્ડર્ડ બેન્ચમાર્ક આનું માપન કરતા નથી.
LXT રિપોર્ટ્સ એક