இணையத் தரவு உள்கட்டமைப்பின் எழுச்சி: AI-ன் அறிவுத் தடையைத் தீர்த்தல்

செயற்கை நுண்ணறிவு (AI) சோதனை ரீதியான சாட்பாட்களிலிருந்து (chatbots), முக்கியமான நிறுவனக் கருவிகளாக (enterprise tools) மாறிவரும் நிலையில், ஒரு மிகப்பெரிய சவால் உருவாகியுள்ளது: அது நிகழ்நேர (real-time), கட்டமைக்கப்பட்ட இணையத் தரவின் (structured web data) பற்றாக்குறை. மாடல் கட்டமைப்புகள் (model architectures) மிகவும் நுணுக்கமானதாகி வந்தாலும், அவற்றை ஆதரிக்கும் "அறிவு அடுக்கு" (knowledge layer) சிதறியும், காலாவதியானும், பெரிய அளவில் அணுக முடியாதும் உள்ளது.

நிலையான பயிற்சியைத் தாண்டி: நிகழ்நேர சூழலின் தேவை

பல ஆண்டுகளாக, AI முன்னேற்றத்தின் முக்கிய காரணியாக இருந்தது மாடல்களின் அளவை அதிகரிப்பதும், மிகப்பெரிய நிலையான தரவுத் தொகுப்புகளில் (static datasets) பயிற்சி அளிப்பதும் ஆகும். இருப்பினும், இந்த அணுகுமுறை ஒரு எல்லையை எட்டியுள்ளது. பாரம்பரியப் பயிற்சி முறையானது, ஒரு குறிப்பிட்ட நேரத்தில் இணையத்திலிருந்து எடுக்கப்பட்டத் தரவுத் துண்டுகளை (snapshots) மட்டுமே நம்பியுள்ளது, இது நவீன வணிகத் தேவைகளுக்குப் போதுமானதல்ல. போட்டியாளர்களின் விலை நிர்ணயம், மாறிவரும் நுகர்வோர் மனநிலை அல்லது உருவாகும் பாதுகாப்பு அச்சுறுத்தல்கள் போன்ற நிலையற்ற காரணிகளைக் கண்காணிக்க, AI-க்குத் தொடர்ச்சியான புதிய தகவல்களின் தேவை உள்ளது.

Bright Data-வின் CEO Or Lenchner குறிப்பிடுவது போல, நிகழ்நேர அறிவு அடுக்கு இல்லாத ஒரு அறிவு அடுக்கு என்பது "எதுவும் தெரியாத ஒரு மேதையைப்" போன்றது. தற்போதைய சூழல் (context) இல்லையெனில், AI மாடல்கள் "காலாவதியான பதில்களை" (stale answers) வழங்கும், இது தவறான வணிக முடிவுகளுக்கும், அதிகரித்த மாயத்தோற்றங்களுக்கும் (hallucinations) வழிவகுக்கும். உண்மையில், AI வெளியீடுகளின் மீதான நம்பிக்கையை மேம்படுத்த நிகழ்நேர இணையத் தரவு அணுகல் அவசியம் என்று 56% AI நிபுணர்கள் தெரிவிக்கின்றனர்.

பாரம்பரியத் தரவுத் தேடலின் தோல்வியும் RAG இடைவெளியும்

Retrieval-Augmented Generation (RAG) வந்த பின்னரும், பல நிறுவனங்கள் நம்பகமான முடிவுகளை வழங்குவதில் சிரமப்படுகின்றன. வெறும் பெரிய அளவிலான தரவுத் தேடல் (large-scale retrieval) மட்டுமே உயர்தர அறிவுக்குச் சமமாகாது. ஒரு செயல்பாட்டுச் சூழலில் RAG திறம்படச் செயல்பட வேண்டுமானால், தரவு "AI-தயார்" (AI-ready) நிலையில் இருக்க வேண்டும்—அதாவது அது துல்லியமாகவும், கட்டமைக்கப்பட்டதாகவும், சூழலுக்கு ஏற்றதாகவும் இருக்க வேண்டும்.

இதைச் சரியாகச் செய்வதன் முக்கியத்துவம் மிகவும் அதிகம். Gartner நிறுவனத்தின் படி, AI-தயார் தரவு இல்லாத 60% AI திட்டங்கள் இந்த ஆண்டின் இறுதிக்குள் கைவிடப்படும் என்று எதிர்பார்க்கப்படுகிறது. இங்குத் தடையானது தரவைக் கண்டறிவது மட்டுமல்ல; தரவைப் பெறுவதில் ஏற்படும் தாமதமும் (latency), தானியங்கித் தேடலுக்காக வடிவமைக்கப்படாத இணையதளங்களை வழிநடத்துவதில் உள்ள தொழில்நுட்பச் சிக்கல்களுமே ஆகும்.

உள்கட்டமைப்பு அடுக்கை உருவாக்குதல்: மனித நடத்தையைப் பின்பற்றுதல்

AI பரிணாம வளர்ச்சியின் அடுத்த கட்டம், வாரந்தோறும் உருவாக்கப்படும் நூற்றுக்கணக்கான மில்லியன் டொமைன்கள் (domains) மற்றும் பில்லியன் கணக்கான புதிய URL-களைக் கையாள வடிவமைக்கப்பட்ட ஒரு சிறப்பு இணையத் தரவு உள்கட்டமைப்பு அடுக்கில் உள்ளது. இந்த அடுக்கு, JavaScript-அதிகமுள்ள தளங்கள் மற்றும் தீவிரமான anti-bot மென்பொருள்கள் உள்ளிட்ட குறிப்பிடத்தக்க தொழில்நுட்பத் தடைகளைத் தாண்ட வேண்டும்.

இதைச் சாதிக்க, புதிய உள்கட்டமைப்புத் தளங்கள் பாரம்பரிய ஸ்கிராப்பிங் (scraping) முறையிலிருந்து விலகி, மனித இணையப் பயன்பாட்டு நடத்தையைப் (human browsing behavior) பிரதிபலிக்கும் அமைப்புகளை நோக்கி நகர்கின்றன. இது ஒரு மனிதப் பயனர் இணையதளங்களுடன் எவ்வாறு தொடர்பு கொள்வாரோ, அதேபோல செயல்படுவதற்கு IP முகவரிகள் மற்றும் புவியியல் இருப்பிடங்கள் உள்ளிட்ட ஆயிரக்கணக்கான அளவுருக்களை (parameters) பின்பற்றுவதை உள்ளடக்கியது. இந்தத் திறன், மூலமான, கட்டமைக்கப்படாத குறியீடுகளை (unstructured code) பயன்பாட்டுக்குத் தகுந்த, கட்டமைக்கப்பட்ட தரவுத் தொகுப்புகளாக (structured data feeds) மாற்றும் அதே வேளையில், மிகப்பெரிய அளவில் (ஒரு நாளைக்கு 80 பில்லியன் தொடர்புகள் வரை) தரவைச் சேகரிக்க அனுமதிக்கிறது.

இணக்கம் மற்றும் அளவை நிர்வகித்தல்

இந்த உள்கட்டமைப்பு அடுக்கு விரிவடையும் போது, அது மிகப்பெரிய அளவிற்கும் (scale) கடுமையான தரவு நிர்வாகத்திற்கும் (data governance) இடையே சமநிலையைப் பேண வேண்டும். மிகக் குறைந்த தாமதத்தில் (super-low latency) தரவைப் பெறும் திறன், GDPR மற்றும் CCPA போன்ற உலகளாவிய தனியுரிமை கட்டமைப்புகளின் (privacy frameworks) கடுமையான இணக்கத்துடன் (compliance) இணைந்து செயல்பட வேண்டும். இணையத்தின் பரந்த, கட்டமைக்கப்படாத "அண்டத்திற்கும்" (universe), நிறுவனங்களின் AI மாடல்களின் கட்டமைக்கப்பட்ட, நிகழ்நேரத் தேவைகளுக்கும் இடையே ஒரு தடையற்ற பாலத்தை உருவாக்குவதே இதன் இலக்காகும்.

முக்கியக் குறிப்புகள்

  • தரவின் புத்துணர்ச்சி முக்கியமானது: நிலையான பயிற்சித் தரவு இப்போது போதுமானதல்ல; AI மாயத்தோற்றங்களைத் (hallucinations) தடுக்கவும், வணிகத் தொடர்பைத் தக்கவைக்கவும் நிகழ்நேர இணையத் தரவு அவசியமாகும்.
  • "AI-தயார்" தேவை: கட்டமைக்கப்பட்ட, சூழல் சார்ந்த தரவு இல்லையெனில், 60% AI திட்டங்கள் தோல்வியடையும் அபாயம் உள்ளது, இது வெறும் பெரிய அளவிலான தரவுத் தேடலைத் தாண்டிச் செல்வதன் முக்கியத்துவத்தை உணர்த்துகிறது.
  • மனிதத் தொடர்பைப் பின்பற்றுதல்: வளர்ந்து வரும் உள்கட்டமைப்புகள், anti-bot நடவடிக்கைகளைத் தவிர்க்கவும், JavaScript-அதிகமுள்ள தளங்களை பெரிய அளவில் ஸ்கிராப் செய்யவும், சிக்கலான மனித இணையப் பயன்பாட்டு அளவுருக்களைப் பிரதிபலிப்பதன் மூலம் அணுகல் சிக்கல்களைத் தீர்க்கின்றன.