ഭാരം കുറഞ്ഞ ഓപ്പൺ സോഴ്സ് LLM-കൾക്കായുള്ള പ്രോംപ്റ്റ് അധിഷ്ഠിത ടൂൾ-കോളിംഗ്
GPT-4 പോലുള്ള വലിയ മോഡലുകൾ മികച്ച രീതിയിൽ പ്രവർത്തിക്കുന്നു. എന്നാൽ അവയ്ക്ക് ഉയർന്ന കമ്പ്യൂട്ടിംഗ് ശേഷി ആവശ്യമാണ്.
ചെറിയ ഓപ്പൺ സോഴ്സ് മോഡലുകൾ പലപ്പോഴും സങ്കീർണ്ണമായ യുക്തിപരമായ ചിന്തകളിൽ (reasoning) പരാജയപ്പെടാറുണ്ട്. വലിയ മോഡലുകൾ പ്രവർത്തിപ്പിക്കാൻ വലിയ തോതിലുള്ള GPU-കൾ ആവശ്യമാണ്.
ഘടനാപരമായ പ്രോംപ്റ്റുകളിലൂടെ (structured prompts) ചെറിയ മോഡലുകളെ ടൂളുകൾ ഉപയോഗിക്കാൻ സഹായിക്കുന്ന ഒരു രീതിയെക്കുറിച്ച് ഞാൻ ഗവേഷണം നടത്തി. ഈ ഗവേഷണത്തിന്റെ പേര് Prompt-Driven Tool-Calling for Lightweight Open Source LLMs എന്നാണ്.
പ്രശ്നം:
- ചെറിയ മോഡലുകൾക്ക് യുക്തിപരമായ ചിന്താശേഷി കുറവാണ്.
- വലിയ മോഡലുകൾ പ്രവർത്തിപ്പിക്കുന്നത് ചെലവേറിയതാണ്.
- കുറഞ്ഞ ഹാർഡ്വെയറിൽ പ്രവർത്തിക്കുന്ന കാര്യക്ഷമമായ ഏജന്റുകൾ നമുക്ക് ആവശ്യമാണ്.
പരിഹാരം: എല്ലാ കാര്യങ്ങളും മനഃപാഠമാക്കാൻ മോഡലുകളെ നിർബന്ധിക്കുന്നത് ഒഴിവാക്കുക. പ്രോംപ്റ്റുകൾ ഉപയോഗിച്ച് മോഡലിനെ ഒരു കൺട്രോളറായി (controller) മാറ്റുക.
ഇത് എങ്ങനെ പ്രവർത്തിക്കുന്നു: പ്രോംപ്റ്റ് മോഡലിനെ താഴെ പറയുന്ന കാര്യങ്ങളിലേക്ക് നയിക്കുന്നു:
- നിങ്ങളുടെ ഉദ്ദേശ്യം മനസ്സിലാക്കാൻ.
- പ്രശ്നങ്ങളെ ഘട്ടങ്ങളായി തിരിക്കാൻ.
- ഊഹിക്കുന്നതിന് പകരം അനുയോജ്യമായ ഒരു ടൂൾ തിരഞ്ഞെടുക്കാൻ.
ഇതിന്റെ പ്രവർത്തനരീതി (workflow) ഈ ഘട്ടങ്ങളിലൂടെയാണ് കടന്നുപോകുന്നത്: ഉപയോക്താവിന്റെ ചോദ്യം $\rightarrow$ LLM $\rightarrow$ ടൂൾ തിരഞ്ഞെടുക്കൽ $\rightarrow$ ടൂൾ പ്രവർത്തിപ്പിക്കൽ $\rightarrow$ അന്തിമ ഉത്തരം.
വസ്തുതകൾ കൃത്യമായി ലഭിക്കുന്നതിനായി മോഡൽ ഒരു കാൽക്കുലേറ്റർ പോലുള്ള ടൂളുകൾ ഉപയോഗിക്കുന്നു.
പ്രധാന നേട്ടങ്ങൾ:
- ചെറിയ മോഡലുകൾ ബുദ്ധിപരമായ ഏജന്റുകളെപ്പോലെ പ്രവർത്തിക്കുന്നു.
- AI കൂടുതൽ എല്ലാവർക്കും ലഭ്യമാകുന്നു.
- ബുദ്ധിശക്തി എന്നത് മോഡലിന്റെ വലുപ്പത്തെക്കാൾ ഉപരി സിസ്റ്റം ഡിസൈനിനെ ആശ്രയിച്ചിരിക്കുന്നു.
പാരമീറ്ററുകൾ വർദ്ധിപ്പിക്കുന്നതിന് പകരം ടൂൾ ഇന്റഗ്രേഷൻ (tool integration) വർദ്ധിപ്പിക്കാനാണ് നമ്മൾ ശ്രമിക്കേണ്ടത്.
ഈ ഗവേഷണം AIS2C2 2025-ൽ പ്രസിദ്ധീകരിച്ചിട്ടുണ്ട്.
സ്രോതസ്സ്: https://www.aiscindia.co.in/wp-content/uploads/2026/06/ilovepdf_merged-4.pdf
ഓപ്ഷണൽ ലേണിംഗ് കമ്മ്യൂണിറ്റി: https://t.me/GyaanSetuAi