2026-இல் ஏஜென்டிக் டேட்டா இன்ஜினியரிங் (Agentic Data Engineering)
பாரம்பரிய டேட்டா பைப்லைன்கள் (data pipelines) தரவை புள்ளி A-விலிருந்து புள்ளி B-க்கு நகர்த்துகின்றன. அவை டேஷ்போர்டுகள் (dashboards) மற்றும் மனித ஆய்வாளர்களுக்குப் பயன்படுகின்றன.
2026-இல், உங்கள் நுகர்வோர் மாறிவிட்டார்கள். உங்கள் பைப்லைன் இப்போது AI ஏஜென்ட்களுக்கு (AI agents) சேவை செய்கிறது.
ஒரு AI ஏஜென்ட் என்பது ஒரு இலக்கை அடைய உணர்ந்து, சிந்தித்து, செயல்படும் ஒரு அமைப்பாகும். ஒவ்வொரு படிநிலையையும் வழிநடத்த அதற்கு மனிதன் தேவையில்லை. செயல்படுவதற்கு, ஏஜென்ட்களுக்கு வெறும் மூலத் தரவை (raw data) விட மேலானது தேவைப்படுகிறது. அவற்றுக்கு சூழல் (context) தேவை.
தற்போதைய பெரும்பாலான பைப்லைன்கள் ஏஜென்ட்களுக்குத் தோல்வியடைகின்றன, ஏனெனில் அவற்றில் பொருள்சார்ந்த அர்த்தம் (semantic meaning) இல்லை. ஒரு காலமில் (column) "status" என்று இருந்து, அதன் மதிப்புகள் A, B அல்லது C என்று இருந்தால், ஒரு மனிதன் அவை எதைக் குறிக்கின்றன என்பதை அறிவார். ஆனால் ஒரு ஏஜென்ட் அதை அறியாது. அது ஊகிக்கும். இத்தகைய ஊகங்கள் தவறான அறிக்கைகளுக்கும் (reports) மோசமான முடிவுகளுக்கும் வழிவகுக்கும்.
நீங்கள் சாதாரண பைப்லைன்களிலிருந்து சூழல் பொறியியலை (context engineering) நோக்கி நகர வேண்டும்.
உங்கள் தரவை ஏஜென்ட்-தயார் (agent-ready) நிலையில் வைக்க, இந்த வழிமுறைகளைப் பின்பற்றுங்கள்:
- விரிவான மெட்டாடேட்டாவை (metadata) சேர்க்கவும். ஒவ்வொரு அட்டவணைக்கும் (table) மற்றும் காலமிற்கும் (column) ஒரு விளக்கம் தேவை. பெயர்களை மட்டும் நம்பியிருக்க வேண்டாம். ஏஜென்ட்கள் API மூலம் இந்த விளக்கங்களைக் கேட்க ஏதுவாக DataHub அல்லது OpenMetadata போன்ற கருவிகளைப் பயன்படுத்தவும்.
- உங்கள் லினியேஜை (lineage) வரைபடமாக்கவும். தரவு எங்கிருந்து வருகிறது மற்றும் எந்த மாற்றங்கள் (transformations) அதை மாற்றின என்பதை ஏஜென்ட்கள் அறிய வேண்டும். இந்த வரைபடங்களை தானாகவே உருவாக்க dbt-ஐப் பயன்படுத்தவும்.
- எம்பெடிங்ஸ்களை (embeddings) உருவாக்கவும். பாரம்பரிய பைப்லைன்கள் அட்டவணைகளை வெளியிடுகின்றன. ஏஜென்டிக் பைப்லைன்கள் வெக்டர் பிரதிநிதித்துவங்களையும் (vector representations) வெளியிட வேண்டும். இது ஏஜென்ட்கள் பொருள்சார்ந்த தேடலை (semantic search) பயன்படுத்த அனுமதிக்கிறது.
- கடுமையான ஸ்கீமா சரிபார்ப்பை (schema validation) நடைமுறைப்படுத்தவும். Great Expectations போன்ற கருவிகளைப் பயன்படுத்தவும். ஸ்கீமா மாறினால், சிஸ்டம் உடனடியாகத் தோல்வியடைய வேண்டும் (fail fast). தவறான தரவை ஒரு ஏஜென்ட் உள்வாங்குவது ஒரு பேரழிவாகும்.
இதை இப்படிச் சிந்தித்துப் பாருங்கள்:
ஒரு பாரம்பரிய பைப்லைன் என்பது ஒரு கன்வேயர் பெல்ட் (conveyor belt) போன்றது. அது பொருட்களை நகர்த்துகிறது, ஆனால் அவை என்னவென்று அதற்குத் தெரியாது.
ஏஜென்ட்-தயார் செய்யப்பட்ட அமைப்பு என்பது ஒரு ஸ்மார்ட் கிடங்கு (smart warehouse) போன்றது. ஒவ்வொரு பொருளுக்கும் ஒரு பார் கோட் (barcode), வரலாறு மற்றும் தெளிவான லேபிள் இருக்கும். அது ஒழுங்கமைக்கப்பட்டிருப்பதால் ரோபோக்களால் அங்குச் செயல்பட முடியும்.
அந்த ஸ்மார்ட் கிடங்கை உருவாக்குவதே உங்கள் வேலை.
சிறிய அளவில் தொடங்குங்கள்:
- முக்கியமான அட்டவணைகளை ஆய்வு செய்து (audit) இன்றே விளக்கங்களைச் சேர்க்கவும்.
- உங்கள் தற்போதைய ஸ்டேக்கில் (stack) லினியேஜ் கண்காணிப்பை (lineage tracking) செயல்படுத்தவும்.
- ஒரு பைப்லைனில் ஒரு எம்பெடிங் படிநிலையைச் சேர்க்கவும்.
- ஸ்கீமா சரிபார்ப்பு சோதனைப் புள்ளிகளை (checkpoints) அமைக்கவும்.
AI ஏஜென்ட்கள் டேட்டா இன்ஜினியரிங்கை இன்னும் முக்கியமானதாக மாற்றுகின்றன. யார் வேண்டுமானாலும் ஒரு LLM-ஐ டேட்டாபேஸுடன் இணைக்க முடியும். ஆனால் அந்த ஏஜென்ட்களை நம்பகமானதாக மாற்றும் அடித்தளத்தை திறமையான இன்ஜினியர்களால்தான் உருவாக்க முடியும்.
இப்போதே அந்த அடித்தளத்தை உருவாக்குங்கள்.
விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi