𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

📅4 hours ago⏱2 min read

Alama ya Jaribio la LLM Unayohitaji Haipo

Majedwali mengi ya kiongozi (leaderboards) ya LLM yanakudanganya.

Mwezi uliopita nilifanya tathmini ya mifumo (models) kwa ajili ya mtiririko wa kazi wa kiamali (agentic pipeline). Nilihitaji uwezo wa kutengeneza kodi na kufikiri kwa hatua nyingi. Nilichagua mfumo bora zaidi kwenye jedwali maarufu la kiongozi. Niliutumia. Ulifeli katika kazi za msingi za matumizi ya zana (tool-use).

Alama ya jedwali la kiongozi ilikuwa ya kweli. Lakini pia haikuwa na manufaa kwa kazi yangu.

Majaribio ya umma (public benchmarks) hujaribu mifumo peke yake. Katika uzalishaji (production), unaendesha mawakala (agents). Mawakala huita zana, hutafuta mtandaoni, na kutekeleza kodi. Majaribio ya kawaida hayapimi hili.

Ripoti za LXT zinaonyesha pengo kubwa. Mnamo Februari 2026, ukiwa na ufikiaji wa zana, alama zilikuwa hivi:

• Claude Opus 4.6: 53.1% • GPT-5.3 Codex: 36% • GLM-5: 32%

Bila ufikiaji wa zana, alama hizi hushuka. Pengo kati ya alama za kutumia zana na zisizotumia zana ndiyo kipimo pekee kinachojali kwa mawakala.

Mifumo inayoshinda katika maswali ya jumla (trivia) au majaribio ya tuli (static tests) mara nyingi hukwama katika kuandika mwito mmoja wa kazi (function call).

Ikiwa unatengeneza mawakala, zingatia maeneo haya matatu:

Uaminifu wa mwito wa zana (Tool call reliability). Je, mfumo unaweka miundo ya miito kwa usahihi unapopata usumbufu? Je, unaweza kurekebisha makosa?
Uchumi wa dirisha la muktadha (Context window economics). Baadhi ya mipangilio ya zana hugharimu tokeni mara 10 hadi 32 zaidi. Dirisha kubwa la muktadha ni upotevu ikiwa linatumia bajeti yako kwa kila mwito.
Upangaji wa hatua nyingi (Multi-step planning). Je, mfumo unaweza kushikilia mpango wa hatua 5? Mifumo mingi hupoteza mwelekeo ifikapo hatua ya 3.

Acha kutumia majedwali ya kiongozi ya umma kama mwongozo wako pekee. Badala yake, fanya hivi:

• Fanya jaribio dogo (mini-benchmark). Tumia miito ya zana halisi 20 hadi 50 kutoka kwenye kumbukumbu (logs) zako. Pima usahihi kwenye muundo (schema) wako mahususi. • Jaribu hali za makosa. Angalia jinsi mfumo unavyofanya kazi wakati zana inarudisha kosa au data tupu. • Pima gharama kwa kila kazi. Mfumo ambao ni bora kwa 5% lakini ni ghali mara 3 mara nyingi ni chaguo lisilo sahihi. • Tumia majedwali maalum ya kiongozi. Angalia alama za matumizi ya zana na mawakala wa kodi kwenye BenchLM.ai badala ya nafasi za jumla.

Mfumo ulioshika nafasi ya #3 unaweza kuwa bora kwa amri moja (single prompt). Unaweza kuwa janga kwa mawakala.

Tumia mchana mmoja kujaribu zana zako mwenyewe. Inakuokoa wiki moja ya kutafuta na kurekebisha makosa (debugging) baadaye.

Unafanyaje tathmini ya mifumo yako? Nijulishe kwenye majibu.

Source: https://dev.to/mrclaw207/the-llm-benchmark-score-youre-looking-at-probably-doesnt-mean-what-you-think-28ka

Optional learning community: https://t.me/GyaanSetuAi

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗦𝗰𝗼𝗿𝗲 𝗬𝗼𝘂 𝗡𝗲𝗲𝗱 𝗗𝗼𝗲𝘀𝗻'𝘁 𝗘𝘅𝗶𝘀𝘁

Continue reading

𝗦𝘁𝗼𝗽 𝗔𝘀𝗸𝗶𝗻𝗴 𝗪𝗵𝗶𝗰𝗵 𝗟𝗟𝗠 𝗜𝘀 𝗕𝗲𝘀𝘁

𝗟𝗟𝗠 𝗚𝗔𝗧𝗘𝗪𝗔𝗬𝗦 𝗙𝗢𝗥 𝗔𝗜 𝗦𝗔𝗔𝗦

𝗧𝗵𝗲 𝗠𝘆𝘁𝗵 𝗢𝗳 𝗧𝗵𝗲 𝗦𝘁𝗿𝗼𝗻𝗴𝗲𝘀𝘁 𝗠𝗼𝗱𝗲𝗹

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲