പ്രായോഗിക തലങ്ങളിലെ പരിശ്രമ അളവുകൾ: എന്റെ ബെഞ്ച്മാർക്ക് ഫലങ്ങൾ

Claude മോഡലുകൾ അഞ്ച് പരിശ്രമ തലങ്ങൾ (effort levels) വാഗ്ദാനം ചെയ്യുന്നു: low, medium, high, xhigh, കൂടാതെ max.

ഉയർന്ന പരിശ്രമം എപ്പോഴും കൂടുതൽ ചിലവ് വരുത്തുമെന്ന് മിക്കവരും കരുതുന്നു. ഞാൻ ഇത് പരീക്ഷിച്ചു. അഞ്ച് തലങ്ങളിലും മൂന്ന് യഥാർത്ഥ ജോലികൾ (tasks) ഞാൻ നടത്തി. ടോക്കണുകൾ (tokens), ലേറ്റൻസി (latency), ഗുണമേന്മ (quality) എന്നിവ ഞാൻ അളന്നു.

ഈ ഫലങ്ങൾ ഞാൻ ഈ മോഡലുകൾ ഉപയോഗിക്കുന്ന രീതി മാറ്റിമറിച്ചു.

പരിശ്രമം യഥാർത്ഥത്തിൽ എന്താണ് ചെയ്യുന്നത്: ഇത് ടോക്കൺ ചിലവ് നിയന്ത്രിക്കുന്നു. മോഡൽ എത്രത്തോളം ചിന്തിക്കുന്നുവെന്നും പ്രവർത്തിക്കുന്നുവെന്നും ഇത് മാറ്റുന്നു. Low effort എന്നാൽ കുറഞ്ഞ ടൂൾ കോളുകളും (tool calls) ചെറിയ ഉത്തരങ്ങളും എന്നാണ് അർത്ഥം. High effort എന്നാൽ മോഡൽ ഉത്തരം നൽകുന്നതിന് മുമ്പ് കൂടുതൽ കാര്യങ്ങൾ പരിശോധിക്കുന്നു (exploration) എന്നാണ് അർത്ഥം.

ഞാൻ പരീക്ഷിച്ച ജോലികൾ:

  • Classification: കരാറിലെ കണ്ടെത്തലുകൾ അടയാളപ്പെടുത്തുക (Labeling contract findings).
  • Code generation: TypeScript ഫംഗ്ഷനുകൾ എഴുതുക.
  • Multi-step audit: ഒരു കരാറിലെ സുരക്ഷാ വീഴ്ചകൾ (vulnerabilities) വിശകലനം ചെയ്യുക.

ഞാൻ കണ്ടെത്തിയ കാര്യങ്ങൾ ഇതാ:

  1. Classification ഗുണമേന്മ എല്ലാ തലങ്ങളിലും ഒരുപോലെയായിരുന്നു. ഒരേ ഉത്തരത്തിനായി low effort-നേക്കാൾ 8 മടങ്ങ് കൂടുതൽ ടോക്കണുകൾ max effort ഉപയോഗിച്ചു. എന്റെ നിയമം: ലളിതവും പരിമിതവുമായ (scoped) ജോലികൾക്കായി low effort ഉപയോഗിക്കുക. ഇവിടെ high effort ഉപയോഗിക്കുന്നത് പാഴാണ്.

  2. Code generation low മുതൽ high വരെ ഗുണമേന്മ മെച്ചപ്പെട്ടു. High-ന് ശേഷം ഗുണമേന്മയിൽ വലിയ മാറ്റമില്ലാതെ നിലകൊണ്ടു (plateaued). Xhigh-ഉം max-ഉം high നൽകുന്ന അതേ കോഡ് തന്നെയാണ് നൽകിയതെങ്കിലും കൂടുതൽ ചിലവ് വരുത്തി. എന്റെ നിയമം: ഒറ്റത്തവണത്തെ (single-shot) കോഡിനോ ഉള്ളടക്കത്തിനോ വേണ്ടി high effort ഉപയോഗിക്കുക.

  3. Multi-step audits ഈ ഫലം എന്നെ അത്ഭുതപ്പെടുത്തി. ഉയർന്ന പരിശ്രമം എന്നാൽ എപ്പോഴും ഉയർന്ന ചിലവ് എന്നല്ല അർത്ഥം. ഈ ജോലിക്കായി, medium-നേക്കാൾ കുറഞ്ഞ ടോക്കണുകളാണ് xhigh ഉപയോഗിച്ചത്.

Medium effort-ൽ, ഓരോ ഘട്ടത്തിലും മോഡൽ കുറഞ്ഞ കാര്യങ്ങൾ മാത്രമേ പരിശോധിച്ചുള്ളൂ. ഇത് കൂടുതൽ തവണ ശ്രമിക്കേണ്ടി വരികയും (turns) വഴിമുട്ടിപ്പോകുകയും ചെയ്തു. എന്നാൽ xhigh-ൽ, മോഡൽ മികച്ച രീതിയിൽ പ്ലാൻ ചെയ്തു. ഇത് കുറഞ്ഞ തവണകളിൽ തന്നെ ജോലി പൂർത്തിയാക്കി. മികച്ച പ്ലാനിംഗ് കുറഞ്ഞ മൊത്തം ചിലവിനും ഉയർന്ന ഗുണമേന്മയ്ക്കും കാരണമായി.

എന്റെ പുതിയ തന്ത്രം:

  • Classification, routing, extraction: low effort ഉപയോഗിക്കുക.
  • Single-shot code or content: high effort ഉപയോഗിക്കുക.
  • Agentic loops, multi-step audits: xhigh effort ഉപയോഗിക്കുക.
  • പരമാവധി കൃത്യത ആവശ്യമാണെങ്കിൽ: max effort ഉപയോഗിക്കുക.

നിങ്ങളുടെ സെറ്റിംഗുകൾ ഊഹിച്ചു തീരുമാനിക്കുന്നത് നിർത്തുക. നിങ്ങൾ ഇടയ്ക്കിടെ ചെയ്യുന്ന മൂന്ന് ജോലികൾ തിരഞ്ഞെടുക്കുക. അവ അഞ്ച് തലങ്ങളിലും പരീക്ഷിച്ചു നോക്കുക. ടോക്കണുകളും ഗുണമേന്മയും അളക്കുക.

പരീക്ഷിച്ചു നോക്കാൻ ഒരു ഉച്ചതിരിഞ്ഞുള്ള സമയം മതിയാകും. തെറ്റായ സെറ്റിംഗ് ഉപയോഗിക്കുന്നത് നിങ്ങൾക്ക് എല്ലാ ദിവസവും പണം നഷ്ടപ്പെടുത്തുന്നു.

Source: https://dev.to/pavelespitia/effort-levels-in-practice-i-benchmarked-low-through-max-on-real-tasks-7lf

Optional learning community: https://t.me/GyaanSetuAi