എന്താണ് AI ഏജന്റുകൾ?

ഒരിക്കൽ ഞാൻ ഇസ്താംബൂളിലേക്ക് ഒരു യാത്ര പ്ലാൻ ചെയ്യാൻ ChatGPT-യോട് ആവശ്യപ്പെട്ടു. അത് എനിക്ക് മികച്ചൊരു പ്ലാൻ നൽകി. എന്നാൽ അതിന് ഫ്ലൈറ്റുകൾ ബുക്ക് ചെയ്യാൻ കഴിഞ്ഞില്ല. ഹോട്ടൽ നിരക്കുകൾ പരിശോധിക്കാൻ കഴിഞ്ഞില്ല. ഒരു ഇമെയിൽ അയക്കാനും അതിന് കഴിഞ്ഞില്ല.

ആ മോഡൽ ബുദ്ധിമാനായിരുന്നു, പക്ഷേ അതിന് കൈകളില്ലായിരുന്നു. അതിന് ചിന്തിക്കാൻ കഴിഞ്ഞു, പക്ഷേ പ്രവർത്തിക്കാൻ കഴിഞ്ഞില്ല.

AI ഏജന്റുകൾ ഈ പ്രശ്നം പരിഹരിക്കുന്നു.

സാധാരണ LLM-കൾ (Large Language Models) നല്ല അറിവുള്ള ഒരു അസിസ്റ്റന്റിനെപ്പോലെയാണ് പ്രവർത്തിക്കുന്നത്. നിങ്ങൾ ഒരു പ്രോംപ്റ്റ് നൽകുന്നു, മോഡൽ ഒരു മറുപടി നൽകുന്നു. അതൊരു ഒറ്റത്തവണത്തെ പ്രക്രിയയാണ്. മോഡൽ വെബ് ബ്രൗസ് ചെയ്യുകയോ, നിങ്ങളുടെ കലണ്ടർ പരിശോധിക്കുകയോ, യഥാർത്ഥ ലോകത്ത് പ്രവർത്തിക്കുകയോ ചെയ്യുന്നില്ല.

ഒരു AI ഏജന്റ് വ്യത്യസ്തമാണ്. ഒരു ലക്ഷ്യത്തിലെത്താൻ ടൂളുകൾ എങ്ങനെ ഉപയോഗിക്കണമെന്ന് തീരുമാനിക്കാൻ ഒരു ഏജന്റ് ഒരു ലാംഗ്വേജ് മോഡലിനെ ഉപയോഗിക്കുന്നു.

ഒരു ഏജന്റിന് ഇവ ചെയ്യാൻ കഴിയും:

  • വെബ് സെർച്ച് ചെയ്യുക
  • കോഡ് പ്രവർത്തിപ്പിക്കുക
  • ഒരു ഡാറ്റാബേസ് ക്വറി ചെയ്യുക
  • ഇമെയിലുകൾ അയക്കുക
  • എക്സ്റ്റേണൽ APIs ഉപയോഗിക്കുക

പ്രധാന വ്യത്യാസം സ്വയംഭരണാധികാരമാണ് (autonomy). നിങ്ങൾ ഒരു ഏജന്റിന് ഒരു ലക്ഷ്യം നൽകുന്നു, അത് ചെയ്യേണ്ട ഘട്ടങ്ങൾ സ്വയം കണ്ടെത്തുന്നു.

താരതമ്യം: • Regular LLM: ചോദ്യങ്ങൾക്ക് ഉത്തരം നൽകുന്നു, ഒറ്റ മറുപടി, ടൂളുകൾ ഇല്ല, റിയാക്റ്റീവ് (reactive). • AI Agent: പ്രവർത്തികൾ ചെയ്യുന്നു, മൾട്ടി-സ്റ്റെപ്പ് റീസണിംഗ്, ടൂളുകൾ ഉപയോഗിക്കുന്നു, ലക്ഷ്യബോധമുള്ളത് (goal-driven).

മിക്ക ഏജന്റുകളും ReAct (Reason and Act) എന്ന പാറ്റേൺ ഉപയോഗിക്കുന്നു. ഇത് ലളിതമായ ഒരു ലൂപ്പ് പിന്തുടരുന്നു:

  1. Thought: അടുത്തതായി എനിക്ക് എന്ത് ചെയ്യണം?
  2. Action: ഒരു ടൂൾ ഉപയോഗിക്കുക.
  3. Observe: ഫലം പരിശോധിക്കുക.
  4. Repeat: ലക്ഷ്യം പൂർത്തിയാകുന്നത് വരെ തുടരുക.

ഇത്തരം ലൂപ്പുകൾ നിർമ്മിക്കുന്നത് പ്രയാസകരമാണ്. നിങ്ങൾ പിശകുകൾ കൈകാര്യം ചെയ്യുകയും, മെമ്മറി നിയന്ത്രിക്കുകയും, ടൂളുകളെ ബന്ധിപ്പിക്കുകയും വേണം.

അതുകൊണ്ടാണ് LangChain പോലുള്ള ഫ്രെയിംവർക്കുകൾ നിലവിലുള്ളത്. LangChain ഇതിനാവശ്യമായ അടിസ്ഥാന ഘടന (plumbing) നൽകുന്നു. ഇത് നിങ്ങൾക്ക് മുൻകൂട്ടി നിർമ്മിച്ച ടൂളുകൾ, മെമ്മറി, കൂടാതെ മോഡലുകളെ യഥാർത്ഥ ലോകവുമായി ബന്ധിപ്പിക്കാനുള്ള വഴികൾ എന്നിവ നൽകുന്നു.

നിങ്ങളുടെ വർക്ക്ഫ്ലോ സങ്കീർണ്ണമാണെങ്കിൽ, നിങ്ങൾ LangGraph ഉപയോഗിക്കുന്നു. വ്യത്യസ്ത പാതകളിലേക്ക് തിരിയുകയോ, ജോലികൾ സമാന്തരമായി (parallel) ചെയ്യുകയോ, അല്ലെങ്കിൽ മുൻപത്തെ ഘട്ടങ്ങളിലേക്ക് തിരിച്ചുപോവുകയോ ചെയ്യാവുന്ന ഏജന്റുകളെ നിർമ്മിക്കാൻ LangGraph നിങ്ങളെ സഹായിക്കുന്നു.

സംഗ്രഹം:

  • LLM-കൾ ടെക്സ്റ്റിനോട് പ്രതികരിക്കുന്നു.
  • ഏജന്റുകൾ ജോലികൾ പൂർത്തിയാക്കാൻ ടൂളുകൾ ഉപയോഗിക്കുന്നു.
  • ReAct ലൂപ്പ് ഏജന്റിന്റെ ലോജിക് നിയന്ത്രിക്കുന്നു.
  • മോഡലുകളും ടൂളുകളും തമ്മിലുള്ള ബന്ധം LangChain കൈകാര്യം ചെയ്യുന്നു.
  • സങ്കീർണ്ണവും ശാഖകളുള്ളതുമായ (branching) വർക്ക്ഫ്ലോകൾ LangGraph കൈകാര്യം ചെയ്യുന്നു.

എന്റെ അടുത്ത പോസ്റ്റിൽ, നിങ്ങളുടെ എൻവയോൺമെന്റ് എങ്ങനെ സജ്ജീകരിക്കാമെന്നും നിങ്ങളുടെ ആദ്യത്തെ ഏജന്റ് എങ്ങനെ പ്രവർത്തിപ്പിക്കാമെന്നും ഞാൻ കാണിച്ചുതരാം.

Source: https://dev.to/ikram_khan/what-are-ai-agents-a-plain-english-introduction-56nd

Optional learning community: https://t.me/GyaanSetuAi