In the Weights: LLM-களின் காலத்தில் உங்கள் டிஜிட்டல் பாரம்பரியத்தை அளவிடுதல்

இணையத் தேடுபொறிகள் உண்மையை அறியும் முதன்மை ஆதாரமாகத் தங்கள் அந்தஸ்தை இழந்து வரும் நிலையில், ஒரு புதிய டிஜிட்டல் எல்லை உருவாகி வருகிறது: அதுதான் Large Language Models-ன் உட்புற அளவுருக்கள் (internal parameters). "In the Weights" எனும் புதிய தனிப்பட்ட தேடல் கருவி, பயனர்கள் தங்களின் இருப்பு செயற்கை நுண்ணறிவின் (AI) கட்டமைப்பிலேயே பதிவாகியுள்ளதா என்பதைக் கண்டறிய அனுமதிக்கிறது.

Google-க்கு அப்பால்: LLM-அடிப்படையிலான அடையாளத்தின் எழுச்சி

பல தசாப்தங்களாக, ஒருவரது டிஜிட்டல் தடயத்தைச் சரிபார்க்க "உங்களைப் பற்றி கூகுளில் தேடுவது" (Googling yourself) ஒரு தரநிலையாக இருந்தது. இருப்பினும், அதிகப்படியான பயனர்கள் பாரம்பரியத் தேடுபொறிகளிலிருந்து உரையாடல் சார்ந்த AI-க்கு மாறி வருவதால், ஆன்லைன் இருப்பு (online presence) குறித்த கருத்து பரிணாமமடைந்து வருகிறது. Global Illumination நிறுவனத்தின் கையகப்படுத்துதல் மூலம் முன்னாள் OpenAI உறுப்பினர்களாக இருந்த Thomas Dimson மற்றும் Joey Flynn, இந்த மாற்றத்தைக் கையாள "In the Weights"-ஐத் தொடங்கியுள்ளனர்.

இந்தத் தளம் குறியீடாக்கப்பட்ட (indexed) இணையப் பக்கங்களிலிருந்து விலகி, அதற்குப் பதிலாக "weights"—அதாவது ஒரு AI மாதிரியின் நுண்ணறிவை வரையறுக்கும் எண்முறை அளவுருக்களில் கவனம் செலுத்துகிறது. நிகழ்நேர இணையத் தேடல் கருவிகளின் உதவி இன்றி, ஒரு குறிப்பிட்ட நபரை ஒரு மாதிரி எவ்வளவு சிறப்பாக நினைவுகூர முடியும் என்பதை அளவிடுவதே இதன் நோக்கமாகும்; இது அடிப்படையில் ஒரு நபரின் தரவு அந்த மாதிரியின் பயிற்சித் தொகுப்பில் (training set) ஆழமாகப் பதிந்துள்ளதா என்பதைச் சோதிக்கிறது.

மதிப்பெண் வழங்கும் முறை எவ்வாறு செயல்படுகிறது

OpenAI-ன் GPT தொடர், Google-ன் Gemini, Anthropic-ன் Claude, Meta-ன் Llama மற்றும் xAI-ன் Grok உள்ளிட்ட பல்வேறு முன்னணி LLM-களைக் கேள்வி கேட்பதன் மூலம் இந்தத் கருவி செயல்படுகிறது. இதன் தூண்டுதல் (prompt) அமைப்பு துல்லியமானது: இது மாதிரிகளிடம், “Who is [name]? Give up to 10 results, each with a short description and confidence.” என்று கேட்கிறது.

தரவுகள் சேகரிக்கப்பட்டதும், இந்தத் தளம் மூன்று முக்கியமான தொழில்நுட்பப் படிகளைச் செய்கிறது:

  1. குழுவாக்கம் (Clustering): இது வெவ்வேறு மாதிரிகளிலிருந்து வரும் ஒத்த விளக்கங்களை ஒன்றாகக் குழுவாக்குகிறது.
  2. வலிமை மதிப்பெண் (Strength Scoring): நினைவுகூறுதலின் நிலைத்தன்மை மற்றும் தெளிவின் அடிப்படையில் இது ஒரு எண்முறை மதிப்பெண்ணை வழங்குகிறது.
  3. மாயத்தோற்றத்தைக் கண்டறிதல் (Hallucination Detection): GPT-4o Mini போன்ற ஒரு மாதிரி தெளிவற்ற அல்லது தவறான தரவை வழங்கும் போது, இது முரண்பாடுகளைச் சுட்டிக்காட்டுகிறது.

இந்தப் பட்டியல் (leaderboard), weights-ல் உள்ள தகவல்களின் அடர்த்தியைப் பிரதிபலிக்கிறது. Macaulay Culkin (மதிப்பெண் 988) மற்றும் Luciano Pavarotti போன்ற பிரபலங்கள் முதலிடங்களை ஆக்கிரமித்திருந்தாலும், தொழில்நுட்ப வல்லுநர்கள் போன்ற சாதாரண பயனர்கள் "AI மூளையில்" தாங்கள் எத்தனையாவது இடத்தில் இருக்கிறோம் என்பதை அறிய இந்தத் கருவி ஒரு ஒப்பீட்டு அளவை வழங்குகிறது.

AI சூழலுக்கு இது ஏன் முக்கியமானது

"In the Weights" என்பது வெறும் வைரலாகும் ஒரு ஆர்வம் மட்டுமல்ல; இது பயிற்சித் தரவின் (training data) சமூகவியல் தாக்கத்தைப் புரிந்துகொள்ள உதவும் ஒரு ஜன்னல் போன்றது. மனித வாழ்க்கையானது அடிப்படையில் மிதவைப் புள்ளி எண்களாக (floating-point numbers) எவ்வாறு குறியாக்கம் செய்யப்படுகிறது என்பதை இந்தத் திட்டம் எடுத்துக்காட்டுகிறது. முடிவுகளைப் பகுப்பாய்வு செய்வதன் மூலம், எந்த மாதிரிகள் குறிப்பிட்ட சார்புகளைக் (biases) காட்டுகின்றன மற்றும் எந்த நபர்கள் குறிப்பிடத்தக்க கலாச்சாரத் தடயங்களைக் கொண்டிருந்தாலும் விக்கிப்பீடியா பதிவை இழக்கிறார்கள் போன்ற ஆழமான தொழில்நுட்ப மற்றும் நெறிமுறை கேள்விகளை ஆராய உருவாக்குநர்கள் விரும்புகின்றனர்.

LLM-கள் தகவல் மீட்டெடுப்பிற்கான முதன்மை இடைமுகமாக மாறும் போது, அவற்றின் எடைகளில் (weights) எது சேகரிக்கப்பட்டுள்ளது மற்றும் எது சேகரிக்கப்படவில்லை என்பதைப் புரிந்துகொள்வது, ஆராய்ச்சியாளர்கள், உள்ளடக்க உருவாக்குநர்கள் மற்றும் தேடலுக்குப் பிந்தைய உலகில் (post-search world) தங்களின் நீண்டகால டிஜிட்டல் பாரம்பரியத்தைப் பற்றி கவலைப்படுபவர்களுக்கு மிக முக்கியமானதாக இருக்கும்.

முக்கியக் கருத்துக்கள்

  • டிஜிட்டல் அடையாளத்தில் மாற்றம்: தேடுபொறிகளிலிருந்து LLM-களுக்குப் போக்குவரத்து மாறும் போது, "vanity searches" இணையக் குறியீட்டு முறையிலிருந்து (web indexing) மாதிரி அளவுருக்களை (model parameters) சரிபார்ப்பதாக மாறி வருகின்றன.
  • மாடல் இடையேயான ஒப்பீடு (Cross-Model Benchmarking): வெவ்வேறு கட்டமைப்புகள் (GPT, Claude, Llama, போன்றவை) குறிப்பிட்ட தகவல்களை எவ்வாறு நினைவு கூர்கின்றன என்பதை ஒப்பிடுவதற்கு இந்தத் கருவி ஒரு தனித்துவமான வழியை வழங்குகிறது.
  • தரவு குறியாக்கம் (Data Encoding): மனிதத் தகவல்களின் பெரும் அளவிலான தரவுகள் இப்போது நரம்பியல் வலைப்பின்னல்களுக்குள் (neural networks) எண் எடைகளாகச் சேமிக்கப்படுகின்றன என்ற யதார்த்தத்தை இந்தத் திட்டம் அடிக்கோடிட்டுக் காட்டுகிறது.