𝗚𝗣𝗧 നിങ്ങൾ വിചാരിക്കുന്നതിനേക്കാൾ കൂടുതൽ ചെയ്യുന്നു
GPT മോഡലുകൾ ടെക്സ്റ്റുകളുമായി നമ്മൾ പ്രവർത്തിക്കുന്ന രീതിയെ മാറ്റിമറിച്ചുകൊണ്ടിരിക്കുകയാണ്.
GPT-1-ലൂടെയാണ് ഈ യാത്ര തുടങ്ങിയത്. യന്ത്രങ്ങൾക്ക് വ്യക്തമായ വാക്യങ്ങൾ എഴുതാൻ കഴിയുമെന്ന് അത് കാണിച്ചുതന്നു. അതിനുശേഷം വന്ന GPT-2 ഈ മോഡലുകൾക്ക് എത്രത്തോളം സാധ്യതകളുണ്ടെന്ന് തെളിയിച്ചു. പിന്നീട് GPT-3 എത്തി. 175 ബില്യൺ പാരാമീറ്ററുകളുള്ള (parameters) ഇത്, വെറുമൊരു വാക്യം പൂർത്തിയാക്കുന്നതിനേക്കാൾ ഉപരിയായി മോഡലുകൾക്ക് ചെയ്യാൻ കഴിയുമെന്ന് തെളിയിച്ചു.
ഇതിന്റെ രഹസ്യം Transformer ആർക്കിടെക്ചറാണ് (architecture). വൻതോതിലുള്ള ഡാറ്റയിൽ നിന്ന് ഇത് പാറ്റേണുകൾ പഠിക്കുന്നു. ഓരോ നിയമവും പ്രോഗ്രാം ചെയ്യേണ്ട ആവശ്യമില്ല. പ്രത്യേക ജോലികൾക്കായി ഇതിനെ ഫൈൻ ട്യൂൺ (fine-tune) ചെയ്യാനോ സ്വാഭാവിക ഭാഷ ഉപയോഗിച്ച് ഇതിനെ നയിക്കാനോ നിങ്ങൾക്ക് സാധിക്കും.
എന്നാൽ ഇത്തരം മോഡലുകൾ പ്രൊഡക്ഷനിൽ (production) പ്രവർത്തിപ്പിക്കുന്നത് പ്രയാസകരമാണ്.
ഉയർന്ന ലാറ്റൻസി (latency) ഉപയോക്താവിന്റെ അനുഭവം നശിപ്പിച്ചേക്കാം. ഞങ്ങൾ 64 Nvidia H100 GPUs-ൽ വലിയ മോഡലുകൾ പ്രവർത്തിപ്പിച്ചു. അപ്പോൾ 120ms ആയിരുന്നു താമസം. ഞങ്ങളുടെ ആവശ്യങ്ങൾക്ക് ഇത് വളരെ സാവധാനമായിരുന്നു. ഞങ്ങൾ LoRA ഉപയോഗിച്ച് 6 ബില്യൺ പാരാമീറ്ററുകളുള്ള ചെറിയൊരു മോഡലിലേക്ക് മാറി. ഇത് ലാറ്റൻസി 38ms ആയി കുറച്ചു. ഇത് ഞങ്ങൾക്ക് പ്രതിമാസം $30,000 ലാഭിക്കുകയും ചെയ്തു. കോഡിംഗിലെ കൃത്യതയിൽ അല്പം കുറവുണ്ടായെങ്കിലും, വേഗതയും ലാഭവും കണക്കിലെടുക്കുമ്പോൾ അത് മൂല്യമുള്ളതായിരുന്നു.
പക്ഷപാതങ്ങൾ (biases) സംബന്ധിച്ചും നിങ്ങൾ ശ്രദ്ധിക്കണം. ഇന്റർനെറ്റിൽ നിന്നാണ് GPT പാറ്റേണുകൾ പഠിക്കുന്നത്. ഇതിനർത്ഥം അത് തെറ്റായ ധാരണകളോ (stereotypes) വസ്തുതാപരമായ പിശകുകളോ ആവർത്തിച്ചേക്കാം എന്നാണ്. തെറ്റാണെങ്കിൽ പോലും അത് വളരെ ആത്മവിശ്വാസത്തോടെ സംസാരിക്കും.
ഈ പിശകുകൾ കണ്ടെത്താനായി ഞങ്ങൾ ഒരു ഡാറ്റാ പൈപ്പ്ലൈൻ (data pipeline) നിർമ്മിച്ചു. പക്ഷപാതപരമായ ഭാഷ തിരിച്ചറിയാൻ ഞങ്ങൾ ഒരു റൂൾ എൻജിൻ (rule engine) ഉപയോഗിച്ചു. തുടക്കത്തിൽ, ഞങ്ങളുടെ ഫ്ലാഗുകളിൽ (flags) 4% തെറ്റായിരുന്നു. ഒരു ചെറിയ വാലിഡേഷൻ മോഡൽ (validation model) കൂടി ചേർത്തതിലൂടെ ഞങ്ങൾ ഇത് പരിഹരിച്ചു. ഇത് പിശകുകൾ 1%-ൽ താഴെയായി കുറച്ചു.
ചിലവും ഊർജ്ജവും വലിയ തടസ്സങ്ങളാണ്.
വലിയ മോഡലുകൾ പരിശീലിപ്പിക്കാൻ ദശലക്ഷക്കണക്കിന് ഡോളർ ചിലവാകുന്നു. ചിലവ് കുറയ്ക്കാൻ ഞങ്ങൾ ക്വാണ്ടൈസേഷൻ (quantization) ഉപയോഗിക്കുന്നു. 4-bit ക്വാണ്ടൈസേഷൻ ഉപയോഗിക്കുന്നതിലൂടെ, ഒരു ടോക്കണിനായുള്ള (per token) ചിലവ് $0.00015-ൽ നിന്ന് $0.00004 ആയി കുറയ്ക്കാൻ ഞങ്ങൾക്ക് കഴിഞ്ഞു. ഒരു വലിയ SaaS ഉൽപ്പന്നത്തിന് ഇത് വർഷത്തിൽ $3 മില്യൺ ലാഭിക്കുന്നു.
ഭാവി കാര്യക്ഷമതയിലേക്കാണ് (efficiency) നീങ്ങുന്നത്. മോഡലുകളെ വലുതാക്കുന്നതിന് പകരം, ഡെവലപ്പർമാർ അവയെ കൂടുതൽ ബുദ്ധിപരവും ചെറുതുമാക്കാൻ ശ്രമിക്കുന്നു. വേഗതയുള്ളതും, ചിലവ് കുറഞ്ഞതും, തങ്ങൾക്ക് അറിയാത്ത കാര്യങ്ങളെക്കുറിച്ച് സത്യസന്ധത പുലർത്തുന്നതുമായ മോഡലുകളാണ് നമുക്ക് ആവശ്യം.
ഈ ടൂളുകൾ വിവേകത്തോടെ ഉപയോഗിക്കുക. അവയുടെ പരിമിതികൾ മനസ്സിലാക്കുക. അവ ഉപകാരപ്രദമായി നിലനിർത്താൻ ഗാർഡ്റെയിലുകൾ (guardrails) നിർമ്മിക്കുക.
Source: https://dev.to/lavkeshdwivedi/gpt-does-more-than-you-think-fll
Optional learning community: https://t.me/GyaanSetuAi