Effort Levels in Practice: My Benchmark Results

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial20 മണിക്കൂർ മുമ്പ്2min read

Effort Levels in Practice: My Benchmark Results

പ്രായോഗിക തലങ്ങളിലെ പരിശ്രമ അളവുകൾ: എന്റെ ബെഞ്ച്മാർക്ക് ഫലങ്ങൾ

Claude മോഡലുകൾ അഞ്ച് പരിശ്രമ തലങ്ങൾ (effort levels) വാഗ്ദാനം ചെയ്യുന്നു: low, medium, high, xhigh, കൂടാതെ max.

ഉയർന്ന പരിശ്രമം എപ്പോഴും കൂടുതൽ ചിലവ് വരുത്തുമെന്ന് മിക്കവരും കരുതുന്നു. ഞാൻ ഇത് പരീക്ഷിച്ചു. അഞ്ച് തലങ്ങളിലും മൂന്ന് യഥാർത്ഥ ജോലികൾ (tasks) ഞാൻ നടത്തി. ടോക്കണുകൾ (tokens), ലേറ്റൻസി (latency), ഗുണമേന്മ (quality) എന്നിവ ഞാൻ അളന്നു.

ഈ ഫലങ്ങൾ ഞാൻ ഈ മോഡലുകൾ ഉപയോഗിക്കുന്ന രീതി മാറ്റിമറിച്ചു.

പരിശ്രമം യഥാർത്ഥത്തിൽ എന്താണ് ചെയ്യുന്നത്: ഇത് ടോക്കൺ ചിലവ് നിയന്ത്രിക്കുന്നു. മോഡൽ എത്രത്തോളം ചിന്തിക്കുന്നുവെന്നും പ്രവർത്തിക്കുന്നുവെന്നും ഇത് മാറ്റുന്നു. Low effort എന്നാൽ കുറഞ്ഞ ടൂൾ കോളുകളും (tool calls) ചെറിയ ഉത്തരങ്ങളും എന്നാണ് അർത്ഥം. High effort എന്നാൽ മോഡൽ ഉത്തരം നൽകുന്നതിന് മുമ്പ് കൂടുതൽ കാര്യങ്ങൾ പരിശോധിക്കുന്നു (exploration) എന്നാണ് അർത്ഥം.

ഞാൻ പരീക്ഷിച്ച ജോലികൾ:

Classification: കരാറിലെ കണ്ടെത്തലുകൾ അടയാളപ്പെടുത്തുക (Labeling contract findings).
Code generation: TypeScript ഫംഗ്ഷനുകൾ എഴുതുക.
Multi-step audit: ഒരു കരാറിലെ സുരക്ഷാ വീഴ്ചകൾ (vulnerabilities) വിശകലനം ചെയ്യുക.

ഞാൻ കണ്ടെത്തിയ കാര്യങ്ങൾ ഇതാ:

Classification ഗുണമേന്മ എല്ലാ തലങ്ങളിലും ഒരുപോലെയായിരുന്നു. ഒരേ ഉത്തരത്തിനായി low effort-നേക്കാൾ 8 മടങ്ങ് കൂടുതൽ ടോക്കണുകൾ max effort ഉപയോഗിച്ചു. എന്റെ നിയമം: ലളിതവും പരിമിതവുമായ (scoped) ജോലികൾക്കായി low effort ഉപയോഗിക്കുക. ഇവിടെ high effort ഉപയോഗിക്കുന്നത് പാഴാണ്.
Code generation low മുതൽ high വരെ ഗുണമേന്മ മെച്ചപ്പെട്ടു. High-ന് ശേഷം ഗുണമേന്മയിൽ വലിയ മാറ്റമില്ലാതെ നിലകൊണ്ടു (plateaued). Xhigh-ഉം max-ഉം high നൽകുന്ന അതേ കോഡ് തന്നെയാണ് നൽകിയതെങ്കിലും കൂടുതൽ ചിലവ് വരുത്തി. എന്റെ നിയമം: ഒറ്റത്തവണത്തെ (single-shot) കോഡിനോ ഉള്ളടക്കത്തിനോ വേണ്ടി high effort ഉപയോഗിക്കുക.
Multi-step audits ഈ ഫലം എന്നെ അത്ഭുതപ്പെടുത്തി. ഉയർന്ന പരിശ്രമം എന്നാൽ എപ്പോഴും ഉയർന്ന ചിലവ് എന്നല്ല അർത്ഥം. ഈ ജോലിക്കായി, medium-നേക്കാൾ കുറഞ്ഞ ടോക്കണുകളാണ് xhigh ഉപയോഗിച്ചത്.

Medium effort-ൽ, ഓരോ ഘട്ടത്തിലും മോഡൽ കുറഞ്ഞ കാര്യങ്ങൾ മാത്രമേ പരിശോധിച്ചുള്ളൂ. ഇത് കൂടുതൽ തവണ ശ്രമിക്കേണ്ടി വരികയും (turns) വഴിമുട്ടിപ്പോകുകയും ചെയ്തു. എന്നാൽ xhigh-ൽ, മോഡൽ മികച്ച രീതിയിൽ പ്ലാൻ ചെയ്തു. ഇത് കുറഞ്ഞ തവണകളിൽ തന്നെ ജോലി പൂർത്തിയാക്കി. മികച്ച പ്ലാനിംഗ് കുറഞ്ഞ മൊത്തം ചിലവിനും ഉയർന്ന ഗുണമേന്മയ്ക്കും കാരണമായി.

എന്റെ പുതിയ തന്ത്രം:

Classification, routing, extraction: low effort ഉപയോഗിക്കുക.
Single-shot code or content: high effort ഉപയോഗിക്കുക.
Agentic loops, multi-step audits: xhigh effort ഉപയോഗിക്കുക.
പരമാവധി കൃത്യത ആവശ്യമാണെങ്കിൽ: max effort ഉപയോഗിക്കുക.

നിങ്ങളുടെ സെറ്റിംഗുകൾ ഊഹിച്ചു തീരുമാനിക്കുന്നത് നിർത്തുക. നിങ്ങൾ ഇടയ്ക്കിടെ ചെയ്യുന്ന മൂന്ന് ജോലികൾ തിരഞ്ഞെടുക്കുക. അവ അഞ്ച് തലങ്ങളിലും പരീക്ഷിച്ചു നോക്കുക. ടോക്കണുകളും ഗുണമേന്മയും അളക്കുക.

പരീക്ഷിച്ചു നോക്കാൻ ഒരു ഉച്ചതിരിഞ്ഞുള്ള സമയം മതിയാകും. തെറ്റായ സെറ്റിംഗ് ഉപയോഗിക്കുന്നത് നിങ്ങൾക്ക് എല്ലാ ദിവസവും പണം നഷ്ടപ്പെടുത്തുന്നു.

Source: https://dev.to/pavelespitia/effort-levels-in-practice-i-benchmarked-low-through-max-on-real-tasks-7lf

Optional learning community: https://t.me/GyaanSetuAi

Effort Levels in Practice: My Benchmark Results

Continue reading

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

Lossless, But Not Free: When Speculative Decoding Works

A Verification Ladder for Low Cost AI Coding Models