இணையத் தரவு உள்கட்டமைப்பின் எழுச்சி: AI-ன் அறிவுத் தடையைத் தீர்த்தல்

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialகடந்த வாரம்3min read

In this article

இணையத் தரவு உள்கட்டமைப்பின் எழுச்சி: AI-ன் அறிவுத் தடையைத் தீர்த்தல்

செயற்கை நுண்ணறிவு (AI) சோதனை ரீதியான சாட்பாட்களிலிருந்து (chatbots), முக்கியமான நிறுவனக் கருவிகளாக (enterprise tools) மாறிவரும் நிலையில், ஒரு மிகப்பெரிய சவால் உருவாகியுள்ளது: அது நிகழ்நேர (real-time), கட்டமைக்கப்பட்ட இணையத் தரவின் (structured web data) பற்றாக்குறை. மாடல் கட்டமைப்புகள் (model architectures) மிகவும் நுணுக்கமானதாகி வந்தாலும், அவற்றை ஆதரிக்கும் "அறிவு அடுக்கு" (knowledge layer) சிதறியும், காலாவதியானும், பெரிய அளவில் அணுக முடியாதும் உள்ளது.

நிலையான பயிற்சியைத் தாண்டி: நிகழ்நேர சூழலின் தேவை

பல ஆண்டுகளாக, AI முன்னேற்றத்தின் முக்கிய காரணியாக இருந்தது மாடல்களின் அளவை அதிகரிப்பதும், மிகப்பெரிய நிலையான தரவுத் தொகுப்புகளில் (static datasets) பயிற்சி அளிப்பதும் ஆகும். இருப்பினும், இந்த அணுகுமுறை ஒரு எல்லையை எட்டியுள்ளது. பாரம்பரியப் பயிற்சி முறையானது, ஒரு குறிப்பிட்ட நேரத்தில் இணையத்திலிருந்து எடுக்கப்பட்டத் தரவுத் துண்டுகளை (snapshots) மட்டுமே நம்பியுள்ளது, இது நவீன வணிகத் தேவைகளுக்குப் போதுமானதல்ல. போட்டியாளர்களின் விலை நிர்ணயம், மாறிவரும் நுகர்வோர் மனநிலை அல்லது உருவாகும் பாதுகாப்பு அச்சுறுத்தல்கள் போன்ற நிலையற்ற காரணிகளைக் கண்காணிக்க, AI-க்குத் தொடர்ச்சியான புதிய தகவல்களின் தேவை உள்ளது.

Bright Data-வின் CEO Or Lenchner குறிப்பிடுவது போல, நிகழ்நேர அறிவு அடுக்கு இல்லாத ஒரு அறிவு அடுக்கு என்பது "எதுவும் தெரியாத ஒரு மேதையைப்" போன்றது. தற்போதைய சூழல் (context) இல்லையெனில், AI மாடல்கள் "காலாவதியான பதில்களை" (stale answers) வழங்கும், இது தவறான வணிக முடிவுகளுக்கும், அதிகரித்த மாயத்தோற்றங்களுக்கும் (hallucinations) வழிவகுக்கும். உண்மையில், AI வெளியீடுகளின் மீதான நம்பிக்கையை மேம்படுத்த நிகழ்நேர இணையத் தரவு அணுகல் அவசியம் என்று 56% AI நிபுணர்கள் தெரிவிக்கின்றனர்.

பாரம்பரியத் தரவுத் தேடலின் தோல்வியும் RAG இடைவெளியும்

Retrieval-Augmented Generation (RAG) வந்த பின்னரும், பல நிறுவனங்கள் நம்பகமான முடிவுகளை வழங்குவதில் சிரமப்படுகின்றன. வெறும் பெரிய அளவிலான தரவுத் தேடல் (large-scale retrieval) மட்டுமே உயர்தர அறிவுக்குச் சமமாகாது. ஒரு செயல்பாட்டுச் சூழலில் RAG திறம்படச் செயல்பட வேண்டுமானால், தரவு "AI-தயார்" (AI-ready) நிலையில் இருக்க வேண்டும்—அதாவது அது துல்லியமாகவும், கட்டமைக்கப்பட்டதாகவும், சூழலுக்கு ஏற்றதாகவும் இருக்க வேண்டும்.

இதைச் சரியாகச் செய்வதன் முக்கியத்துவம் மிகவும் அதிகம். Gartner நிறுவனத்தின் படி, AI-தயார் தரவு இல்லாத 60% AI திட்டங்கள் இந்த ஆண்டின் இறுதிக்குள் கைவிடப்படும் என்று எதிர்பார்க்கப்படுகிறது. இங்குத் தடையானது தரவைக் கண்டறிவது மட்டுமல்ல; தரவைப் பெறுவதில் ஏற்படும் தாமதமும் (latency), தானியங்கித் தேடலுக்காக வடிவமைக்கப்படாத இணையதளங்களை வழிநடத்துவதில் உள்ள தொழில்நுட்பச் சிக்கல்களுமே ஆகும்.

உள்கட்டமைப்பு அடுக்கை உருவாக்குதல்: மனித நடத்தையைப் பின்பற்றுதல்

AI பரிணாம வளர்ச்சியின் அடுத்த கட்டம், வாரந்தோறும் உருவாக்கப்படும் நூற்றுக்கணக்கான மில்லியன் டொமைன்கள் (domains) மற்றும் பில்லியன் கணக்கான புதிய URL-களைக் கையாள வடிவமைக்கப்பட்ட ஒரு சிறப்பு இணையத் தரவு உள்கட்டமைப்பு அடுக்கில் உள்ளது. இந்த அடுக்கு, JavaScript-அதிகமுள்ள தளங்கள் மற்றும் தீவிரமான anti-bot மென்பொருள்கள் உள்ளிட்ட குறிப்பிடத்தக்க தொழில்நுட்பத் தடைகளைத் தாண்ட வேண்டும்.

இதைச் சாதிக்க, புதிய உள்கட்டமைப்புத் தளங்கள் பாரம்பரிய ஸ்கிராப்பிங் (scraping) முறையிலிருந்து விலகி, மனித இணையப் பயன்பாட்டு நடத்தையைப் (human browsing behavior) பிரதிபலிக்கும் அமைப்புகளை நோக்கி நகர்கின்றன. இது ஒரு மனிதப் பயனர் இணையதளங்களுடன் எவ்வாறு தொடர்பு கொள்வாரோ, அதேபோல செயல்படுவதற்கு IP முகவரிகள் மற்றும் புவியியல் இருப்பிடங்கள் உள்ளிட்ட ஆயிரக்கணக்கான அளவுருக்களை (parameters) பின்பற்றுவதை உள்ளடக்கியது. இந்தத் திறன், மூலமான, கட்டமைக்கப்படாத குறியீடுகளை (unstructured code) பயன்பாட்டுக்குத் தகுந்த, கட்டமைக்கப்பட்ட தரவுத் தொகுப்புகளாக (structured data feeds) மாற்றும் அதே வேளையில், மிகப்பெரிய அளவில் (ஒரு நாளைக்கு 80 பில்லியன் தொடர்புகள் வரை) தரவைச் சேகரிக்க அனுமதிக்கிறது.

இணக்கம் மற்றும் அளவை நிர்வகித்தல்

இந்த உள்கட்டமைப்பு அடுக்கு விரிவடையும் போது, அது மிகப்பெரிய அளவிற்கும் (scale) கடுமையான தரவு நிர்வாகத்திற்கும் (data governance) இடையே சமநிலையைப் பேண வேண்டும். மிகக் குறைந்த தாமதத்தில் (super-low latency) தரவைப் பெறும் திறன், GDPR மற்றும் CCPA போன்ற உலகளாவிய தனியுரிமை கட்டமைப்புகளின் (privacy frameworks) கடுமையான இணக்கத்துடன் (compliance) இணைந்து செயல்பட வேண்டும். இணையத்தின் பரந்த, கட்டமைக்கப்படாத "அண்டத்திற்கும்" (universe), நிறுவனங்களின் AI மாடல்களின் கட்டமைக்கப்பட்ட, நிகழ்நேரத் தேவைகளுக்கும் இடையே ஒரு தடையற்ற பாலத்தை உருவாக்குவதே இதன் இலக்காகும்.

முக்கியக் குறிப்புகள்

தரவின் புத்துணர்ச்சி முக்கியமானது: நிலையான பயிற்சித் தரவு இப்போது போதுமானதல்ல; AI மாயத்தோற்றங்களைத் (hallucinations) தடுக்கவும், வணிகத் தொடர்பைத் தக்கவைக்கவும் நிகழ்நேர இணையத் தரவு அவசியமாகும்.
"AI-தயார்" தேவை: கட்டமைக்கப்பட்ட, சூழல் சார்ந்த தரவு இல்லையெனில், 60% AI திட்டங்கள் தோல்வியடையும் அபாயம் உள்ளது, இது வெறும் பெரிய அளவிலான தரவுத் தேடலைத் தாண்டிச் செல்வதன் முக்கியத்துவத்தை உணர்த்துகிறது.
மனிதத் தொடர்பைப் பின்பற்றுதல்: வளர்ந்து வரும் உள்கட்டமைப்புகள், anti-bot நடவடிக்கைகளைத் தவிர்க்கவும், JavaScript-அதிகமுள்ள தளங்களை பெரிய அளவில் ஸ்கிராப் செய்யவும், சிக்கலான மனித இணையப் பயன்பாட்டு அளவுருக்களைப் பிரதிபலிப்பதன் மூலம் அணுகல் சிக்கல்களைத் தீர்க்கின்றன.

இணையத் தரவு உள்கட்டமைப்பின் எழுச்சி: AI-ன் அறிவுத் தடையைத் தீர்த்தல்

இணையத் தரவு உள்கட்டமைப்பின் எழுச்சி: AI-ன் அறிவுத் தடையைத் தீர்த்தல்

நிலையான பயிற்சியைத் தாண்டி: நிகழ்நேர சூழலின் தேவை

பாரம்பரியத் தரவுத் தேடலின் தோல்வியும் RAG இடைவெளியும்

உள்கட்டமைப்பு அடுக்கை உருவாக்குதல்: மனித நடத்தையைப் பின்பற்றுதல்

இணக்கம் மற்றும் அளவை நிர்வகித்தல்

முக்கியக் குறிப்புகள்

Continue reading

AI உள்கட்டமைப்பு இடைவெளி: பணப்புழக்க நெருக்கடியை எதிர்கொள்ளும் ஹைப்பர்ஸ்கேலர்கள்

மெட்டாவின் AI பயன்முறை: சமூக ஊடகத் தரவுகளைத் தேடலுக்கு அடிப்படையாகக் கொள்வதால் ஏற்படும் அபாயங்கள்

இயற்பியல் AI-இல் உள்ள முக்கியமான தரவுத் தடையைத் தீர்க்க XDOF உருவாகிறது

ஏஜென்டிக் AI-ன் எழுச்சி: தொழில்நுட்பக் குழுக்கள் ஏன் ஆட்டோமேஷன் துறையில் முன்னிலை வகிக்கின்றன?