സത്യത്തിന്റെ ഉറവിടം എന്ന പ്രശ്നം (The Source of Truth Problem)

എന്റർപ്രൈസ് AI ടീമുകൾ നേരിടുന്ന ഒരു കഠിനമായ ചോദ്യമുണ്ട്.

"ശരിയായ ഉത്തരം എന്താണ്?"

ഈ ചോദ്യം മോഡലിൽ നിന്നല്ല വരുന്നത്. അത് ബിസിനസ്സിൽ നിന്നാണ് വരുന്നത്.

ചെറിയ തോതിലാകുമ്പോൾ ഇത് എളുപ്പമായി തോന്നാം. എന്നാൽ എന്റർപ്രൈസ് തലത്തിൽ, ഇത് വലിയൊരു ആർക്കിടെക്ചറൽ പ്രശ്നമായി മാറുന്നു. മിക്ക കമ്പനികൾക്കും ഒരു 'source of truth' ഇല്ല. പകരം അവയ്ക്ക് പലതന്നെയുണ്ട്.

കമ്പനികൾ പല സിസ്റ്റങ്ങൾ ഉപയോഗിക്കുന്നു:

  • CRM
  • ERP
  • Ticketing systems
  • Internal databases
  • Spreadsheets
  • Documentation platforms

ഓരോ സിസ്റ്റത്തിലും ഡാറ്റയുണ്ട്. ഓരോ സിസ്റ്റവും കാലക്രമേണ മാറിക്കൊണ്ടിരിക്കും. ഒരു ഉപഭോക്താവ് മൂന്ന് വ്യത്യസ്ത സ്ഥലങ്ങളിൽ മൂന്ന് വ്യത്യസ്ത സ്റ്റാറ്റസുകളിൽ നിലനിൽക്കുന്നുണ്ടാകാം.

AI ഈ പ്രശ്നങ്ങൾ സൃഷ്ടിക്കുന്നില്ല. പകരം അത് ഇവയെ വെളിപ്പെടുത്തുന്നു.

AI വരുന്നതിന് മുമ്പ്, മനുഷ്യരാണ് ഈ കുഴഞ്ഞുമറിഞ്ഞ ഡാറ്റ കൈകാര്യം ചെയ്തിരുന്നത്. ഏത് റിപ്പോർട്ടുകളാണ് പഴയതെന്ന് ജീവനക്കാർക്ക് അറിയാമായിരുന്നു. ഏത് ഡാറ്റാബേസുകളെ വിശ്വസിക്കണമെന്ന് അവർക്കറിയാമായിരുന്നു.

AI-ക്ക് ഈ ഉൾക്കാഴ്ചയില്ല. ഒരു AI ഒന്നിലധികം സ്രോതസ്സുകളിൽ നിന്ന് ഡാറ്റ എടുക്കുമ്പോൾ, അത് സത്യത്തിന്റെ എല്ലാ പതിപ്പുകളും ഒരേസമയം കാണുന്നു.

ഒരു സിസ്റ്റം ഒരു ഉപഭോക്താവ് "Active" ആണെന്ന് പറയുമ്പോൾ മറ്റൊന്ന് "Suspended" ആണെന്ന് പറഞ്ഞാൽ, AI അവിടെ തടസ്സപ്പെടുന്നു. ഇതിൽ ഒരു സിസ്റ്റവും തകരാറിലല്ല. പ്രശ്നം ഉടമസ്ഥാവകാശത്തിലാണ് (ownership).

കൂടുതൽ ഡാറ്റ നൽകിയാൽ AI മെച്ചപ്പെടുമെന്ന് കരുതുന്നത് ഒരു സാധാരണ തെറ്റാണ്. പലപ്പോഴും, കൂടുതൽ ഡാറ്റ കൂടുതൽ ആശയക്കുഴപ്പങ്ങൾ സൃഷ്ടിക്കുന്നു. കൂടുതൽ ഇന്റഗ്രേഷനുകൾ കൂടുതൽ ഡ്യൂപ്ലിക്കേറ്റുകൾക്കും സംഘർഷങ്ങൾക്കും കാരണമാകുന്നു.

റിട്രീവൽ സിസ്റ്റങ്ങൾ (Retrieval systems) പ്രസക്തമായ ഡാറ്റ കണ്ടെത്തുന്നു. അവ ആധികാരികമായ ഡാറ്റയല്ല കണ്ടെത്തുന്നത്.

നിങ്ങൾ തീരുമാനിക്കണം:

  • ഏത് സിസ്റ്റത്തിനാണ് കസ്റ്റമർ സ്റ്റാറ്റസ് കൈകാര്യം ചെയ്യാനുള്ള അധികാരം?
  • ഏത് സിസ്റ്റത്തിനാണ് പ്രൈസിംഗ് (pricing) തീരുമാനിക്കാനുള്ളത്?
  • ഏത് സിസ്റ്റത്തിനാണ് ഇൻവെന്ററി (inventory) നിയന്ത്രിക്കാനുള്ളത്?

ഈ തീരുമാനങ്ങൾ ഗവേണൻസിന്റേതാണ് (governance), അൽഗോരിതങ്ങളുടേതല്ല.

ഇത് പരിഹരിക്കാൻ, നിങ്ങൾ ഒരു സോഴ്സ് ഹൈരാർക്കി (source hierarchy) നിർവചിക്കണം. എല്ലാ സിസ്റ്റങ്ങളും തുല്യമല്ല. നിങ്ങൾ അവയെ ഇങ്ങനെ അടയാളപ്പെടുത്തണം:

  • പ്രൈമറി സോഴ്സ് (Primary source)
  • സെക്കൻഡറി സോഴ്സ് (Secondary source)
  • ഫോളബാക്ക് സോഴ്സ് (Fallback source)

ഇത് ഊഹങ്ങൾ ഒഴിവാക്കുന്നു. മോഡൽ ഡാറ്റ കാണുന്നതിന് മുമ്പ് തന്നെ ഇൻഫ്രാസ്ട്രക്ചർ സത്യം തീരുമാനിക്കുന്നു.

എന്റർപ്രൈസ് AI-യുടെ വിജയം മോഡൽ തിരഞ്ഞെടുക്കുന്നതിനേക്കാൾ കൂടുതൽ ഗവേണൻസിനെ ആശ്രയിച്ചിരിക്കുന്നു. നിങ്ങൾ ഉടമസ്ഥാവകാശം നിർവചിച്ചില്ലെങ്കിൽ, നിങ്ങൾക്ക് ഇവ നേരിടേണ്ടി വരും:

  • അസ്ഥിരമായ ഉത്തരങ്ങൾ
  • പരസ്പരവിരുദ്ധമായ ഫലങ്ങൾ
  • വിശ്വസിക്കാനാവാത്ത ഓട്ടോമേഷൻ
  • കുറഞ്ഞ ഉപയോക്തൃ വിശ്വാസം

AI അതിന്റെ തീരുമാനം മാറ്റുന്നത് ഉപയോക്താക്കൾ കണ്ടാൽ, അവർ അത് ഉപയോഗിക്കുന്നത് നിർത്തും.

AI-യെ ഒരു റിട്രീവൽ പ്രശ്നമായി കാണുന്നത് നിർത്തുക. അതിനെ ഒരു ഡാറ്റ ഉടമസ്ഥാവകാശ പ്രശ്നമായി കാണാൻ തുടങ്ങുക.

മോഡൽ എന്ത് ഉത്തരം നൽകണം എന്നതല്ല ഏറ്റവും കഠിനമായ ചോദ്യം. യഥാർത്ഥത്തിൽ എന്താണ് സത്യം എന്നതാണ് ഏറ്റവും കഠിനമായ ചോദ്യം.

Source: https://dev.to/karan2598/the-source-of-truth-problem-every-enterprise-ai-team-faces-2m2k

Optional learning community: https://t.me/GyaanSetuAi