GLM-5.2 കോഡ് റിവ്യൂകൾ നിങ്ങളുടെ പ്രോംപ്റ്റുകളെ ആശ്രയിച്ചിരിക്കുന്നു
Z.ai-ൽ നിന്നുള്ള GLM-5.2 പ്രശസ്തമായ ഒരു ഓപ്പൺ-വെയ്റ്റ് മോഡലാണ്. കോഡ് എത്രത്തോളം നന്നായി റിവ്യൂ ചെയ്യുന്നു എന്ന് പരിശോധിക്കാൻ ഞങ്ങൾ ഇത് പരീക്ഷിച്ചു. നിങ്ങൾ അത് എങ്ങനെ ഉപയോഗിക്കുന്നു എന്നതിനെ ആശ്രയിച്ച് അതിന്റെ ഗുണനിലവാരം മാറുന്നതായി ഞങ്ങൾ കണ്ടെത്തി.
ഞങ്ങൾ രണ്ട് പരീക്ഷണങ്ങൾ നടത്തി. ആദ്യ പരീക്ഷണത്തിൽ, 16 ബഗുകളുള്ള (bugs) ലളിതമായ ഒരു TypeScript ബാക്കെൻഡ് ഞങ്ങൾ ഉപയോഗിച്ചു. രണ്ടാമത്തെ പരീക്ഷണത്തിൽ, 10 സൂക്ഷ്മമായ ബഗുകളുള്ള ഒരു സങ്കീർണ്ണമായ സിസ്റ്റം ഞങ്ങൾ നിർമ്മിച്ചു. ആപ്പിന്റെ വിവിധ ഭാഗങ്ങൾ എങ്ങനെ പരസ്പരം പ്രവർത്തിക്കുന്നു എന്ന് മനസ്സിലാക്കിയാൽ മാത്രമേ ഈ ബഗുകൾ കണ്ടെത്താൻ കഴിയൂ എന്നതായിരുന്നു ഇതിന്റെ പ്രത്യേകത.
ഞങ്ങൾ പഠിച്ച കാര്യങ്ങൾ ഇവയാണ്:
- റീസണിംഗ് (reasoning) ശ്രമത്തേക്കാൾ പ്രോംപ്റ്റിന്റെ വാക്കുകൾക്കാണ് പ്രാധാന്യം. റീസണിംഗ് മോഡുകൾ ലോവിൽ നിന്ന് ഹൈയിലേക്ക് മാറ്റുന്നതിനേക്കാൾ കൂടുതൽ ഫലങ്ങളിൽ മാറ്റം വരുത്തുന്നത് പ്രോംപ്റ്റ് മാറ്റുന്നതിലൂടെയാണ്.
- കർശനമായ പ്രോംപ്റ്റുകൾ തിരിച്ചടിയായേക്കാം. "ഒരു പ്രൊഡക്ഷൻ PR ബ്ലോക്ക് ചെയ്യുകയോ അപ്രൂവ് ചെയ്യുകയോ ചെയ്യുക" എന്ന് നിങ്ങൾ മോഡലിനോട് പറഞ്ഞാൽ, അത് സുരക്ഷയിൽ (security) മാത്രം ശ്രദ്ധ കേന്ദ്രീകരിക്കും. ഇത് ഹാർഡ്കോഡ് ചെയ്ത രഹസ്യങ്ങളും (hardcoded secrets) ദുർബലമായ ഹാഷിംഗും കണ്ടെത്തും, എന്നാൽ നിങ്ങൾ കണ്ടെത്താൻ ആഗ്രഹിക്കുന്ന യഥാർത്ഥ ലോജിക് ബഗുകൾ ഇത് വിട്ടുപോകും.
- ലോക്കൽ ബഗുകൾ GLM-5.2-ന് എളുപ്പമാണ്. ഒരു പെർമിഷൻ ഗാർഡ് (permission guard) തകരാറിലാകുന്നത് പോലെയോ അല്ലെങ്കിൽ തെറ്റായ വേരിയബിൾ ഉപയോഗിക്കുന്നത് പോലെയോ ഉള്ള ഒറ്റ ഫംഗ്ഷനുള്ളിലെ പിശകുകൾ ഇത് കണ്ടെത്തുന്നു.
- സിസ്റ്റം മുഴുവൻ വ്യാപിച്ചു കിടക്കുന്ന ബഗുകൾ കണ്ടെത്താൻ GLM-5.2 ബുദ്ധിമുട്ടുന്നു. ഒന്നിലധികം ഫയലുകളിലായി വ്യാപിച്ചു കിടക്കുന്ന നിയമങ്ങൾ കൈകാര്യം ചെയ്യാൻ ഇതിന് പ്രയാസമാണ്. ഉദാഹരണത്തിന്, ആർക്കൈവ് ചെയ്ത ടാസ്ക്കുകൾ സെർച്ച് റിസൾട്ടുകളിലും എക്സ്പോർട്ടുകളിലും കാണപ്പെടുന്നത് ഇത് ശ്രദ്ധിച്ചില്ല.
- ഫ്രോണ്ടിയർ മോഡലുകൾ (Frontier models) കൂടുതൽ വിശ്വസനീയമാണ്. GPT-5.5, Opus 4.8 എന്നിവ സങ്കീർണ്ണമായ ക്രോസ്-റൂട്ട് ബഗുകൾ ഒറ്റ പാസ്സിൽ തന്നെ കണ്ടെത്തി. എന്നാൽ ഇത്തരം കാര്യങ്ങളിൽ GLM-5.2 സ്ഥിരതയില്ലാത്തതാണ്.
GLM-5.2 ഫലപ്രദമായി എങ്ങനെ ഉപയോഗിക്കാം:
- ലോക്കൽ ലോജിക്കിനായി ഉപയോഗിക്കുക. ഒരു ഫംഗ്ഷനുള്ളിലെ പിശകുകൾ കണ്ടെത്തുന്നതിന് ഇത് മികച്ചതാണ്.
- നിർദ്ദേശങ്ങൾ കൃത്യമായി നൽകുക. ഒരു "കർശനമായ" (strict) റിവ്യൂ ആവശ്യപ്പെടുന്നതിന് പകരം, വിവിധ റൂട്ടുകൾക്കിടയിലുള്ള സ്ഥിരത (consistency) പരിശോധിക്കാൻ ആവശ്യപ്പെടുക.
- പരിശോധിക്കേണ്ട കാര്യങ്ങൾ വ്യക്തമായി പറയുക. സെർച്ച്, എക്സ്പോർട്ട്, ലിസ്റ്റുകൾ എന്നിവയെല്ലാം ഒരേ രീതിയിലാണോ ഡാറ്റ കൈകാര്യം ചെയ്യുന്നത് എന്ന് പരിശോധിക്കാൻ ആവശ്യപ്പെടുക.
- നിർണ്ണായകമായ കോഡുകൾക്കായി ഒരു തവണ മാത്രം പരിശോധിച്ചാൽ പോരാ. ഫലങ്ങളിൽ വ്യത്യാസങ്ങൾ വരാൻ സാധ്യതയുള്ളതിനാൽ, സങ്കീർണ്ണമായ മാറ്റങ്ങൾക്കായി ഇത് പലതവണ പ്രവർത്തിപ്പിക്കുകയോ അല്ലെങ്കിൽ കൂടുതൽ കരുത്തുള്ള ഒരു മോഡൽ ഉപയോഗിക്കുകയോ ചെയ്യുക.
GLM-5.2 കഴിവുള്ള ഒരു ടൂളാണ്, പക്ഷേ നിങ്ങൾ നൽകുന്ന പ്രോംപ്റ്റ് ആ ജോലിക്കനുസരിച്ചുള്ളതായിരിക്കണം.
Source: https://dev.to/kilocode/glm-52s-code-reviews-are-only-as-good-as-your-prompt-5233
Optional learning community: https://t.me/GyaanSetuAi
