Hugging Face-ல் சிறந்த AI ஆய்வுக் கட்டுரைகள் - 2026-06-25
AI என்பது கேள்விகளுக்குப் பதிலளிப்பதிலிருந்து, நிஜ உலகில் செயல்களைச் செய்யும் நிலைக்கு மாறிவருகிறது. தற்போதைய போக்குகள் ஏஜென்ட்கள் (agents), நினைவக அமைப்புகள் (memory systems) மற்றும் நிகழ்நேர மல்டிமோடல் (real-time multimodal) மாதிரிகளில் கவனம் செலுத்துகின்றன.
நீங்கள் தெரிந்து கொள்ள வேண்டிய சிறந்த 10 ஆய்வுக் கட்டுரைகள் இதோ:
• Qwen-AgentWorld (2606.24597) பெரும்பாலான ஏஜென்ட்கள் வரையறுக்கப்பட்ட உருவகப்படுத்துதல்களில் (simulations) மட்டுமே கற்கின்றன. இந்த ஆய்வுக் கட்டுரை ஒரு மொழி உலக மாதிரியைப் (language world model) பயன்படுத்துகிறது. ஏஜென்ட் செயல்களைக் கற்க உரையின் மூலம் சூழல்களைக் கற்பனை செய்கிறது. இது நீண்ட காலத் திட்டமிடலைச் செய்யும் AI உதவியாளர்களை உருவாக்க உதவுகிறது.
• MemoryData (2606.24775) பயனர்களையும் கடந்த காலப் பணிகளையும் நினைவில் கொள்ள ஏஜென்ட்களுக்கு நீண்டகால நினைவகம் தேவைப்படுகிறது. இந்த ஆய்வுக் கட்டுரை நினைவகத்தை ஒரு தரவு மேலாண்மைப் பிரச்சனையாகக் கருதுகிறது. ஏஜென்ட்கள் தகவல்களை எவ்வாறு சேமிக்கின்றன, மீட்டெடுக்கின்றன மற்றும் புதுப்பிக்கின்றன என்பதை மதிப்பீடு செய்ய இது ஒரு கட்டமைப்பை (framework) உருவாக்குகிறது.
• NatureBench (2606.24530) கோடிங் பெஞ்ச்மார்க்குகள் (Coding benchmarks) பொதுவாகத் தொழில்நுட்பப் பணிகளைச் சோதிக்கின்றன. NatureBench என்பது AI அறிவியல் கண்டுபிடிப்புகளுக்கு ஆதரவளிக்க முடியுமா என்பதைச் சோதிக்கிறது. தற்போதைய ஏஜென்ட்கள் சிறந்த பொறியாளர்களாக இருக்கின்றனவே தவிர, இன்னும் படைப்பாற்றல் மிக்க விஞ்ஞானிகளாக மாறவில்லை என்பதை இது காட்டுகிறது.
• DomainShuttle (2606.26058) Text-to-video மாதிரிகள் பெரும்பாலும் ஒரு பொருளைத் தொடர்ச்சியாக வைத்திருப்பதில் சிரமப்படுகின்றன. இந்த ஆய்வுக் கட்டுரை, வெவ்வேறு வீடியோ களங்களில் (video domains) ஒரு குறிப்பிட்ட நபர் அல்லது பொருளைத் தக்கவைக்க மாதிரிகளுக்கு உதவுகிறது. இது தனிப்பயனாக்கப்பட்ட சந்தைப்படுத்துதலுக்கு (personalized marketing) மிக முக்கியமானது.
• MemGUI-Agent (2606.19926) விமானம் முன்பதிவு செய்வது போன்ற நீண்ட பணிகளின் போது மொபைல் ஏஜென்ட்கள் பெரும்பாலும் தோல்வியடைகின்றன. இந்த ஆய்வுக் கட்டுரை முன்கூட்டியே செயல்படும் சூழல் மேலாண்மையை (proactive context management) அறிமுகப்படுத்துகிறது. இது தகவல்களை நிர்வகிப்பதைச் செயல்களின் சங்கிலியில் (action chain) ஒரு தீவிரமான படியாகக் கருதுகிறது.
• ShutterMuse (2606.25763) பெரும்பாலான AI புகைப்படக் கருவிகள் நீங்கள் ஒரு படத்தை எடுத்த பிறகுதான் செயல்படுகின்றன. ShutterMuse நீங்கள் புகைப்படம் எடுக்கும்போதே, அதன் அமைப்பு (composition) மற்றும் போஸ் (posing) குறித்த நிகழ்நேர வழிகாட்டுதலை வழங்குகிறது. இது ஒரு புகைப்படக் துணைப்opilot (photography copilot) போலச் செயல்படுகிறது.
• Wan-Streamer (2606.25041) மல்டிமோடல் மாதிரிகள் பெரும்பாலும் நேரடித் தொடர்புக்கு மிகவும் மெதுவாக உள்ளன. இந்தத் திட்டம் ஆடியோ, வீடியோ மற்றும் உரைக்கான ஒரு end-to-end ஸ்ட்ரீமிங் மாதிரியை உருவாக்குகிறது. இது வீடியோ அழைப்புகள் மற்றும் AI தொகுப்பாளர்களில் குறைந்த தாமதத்தை (low latency) நோக்கமாகக் கொண்டுள்ளது.
• Multimodal LLM for Code (2606.15932) Code intelligence இப்போது படங்கள், வரைபடங்கள் மற்றும் GUIs ஆகியவற்றைப் புரிந்துகொள்வதையும் கோருகிறது. AI எவ்வாறு காட்சித் தரவுகளைப் பகுப்பாய்வு செய்து குறியீடுகளை (code) எழுதலாம் அல்லது சரிபார்க்கலாம் என்பதை இந்த ஆய்வு விளக்குகிறது.
• AOHP (2606.23449) பெரும்பாலான ஏஜென்ட்கள் ஒரு OS-ன் மேல் இயங்குகின்றன. AOHP ஆண்ட்ராய்டு அடிப்படையிலான ஒரு ஏஜென்ட்-நேட்டிவ் இயங்குதளத்தை (agent-native operating system) உருவாக்குகிறது. இது AI-ஐ வெறும் மற்றொரு செயலியாக (app) இல்லாமல், தொலைபேசியின் ஒரு முக்கியப் பகுதியாக மாற்றுகிறது.
• Masked Diffusion Language Model (2606.25331) பெரும்பாலான மாதிரிகள் இடமிருந்து வலமாக உரையை உருவாக்குகின்றன. இந்த ஆய்வுக் கட்டுரை டிஃப்யூஷன் (diffusion) மூலம் இருதிசை கவனத்தை (bidirectional attention) ஆராய்கிறது. இது கணிதம் மற்றும் கோடிங் பணிகளில் சிறந்த முடிவுகளைத் தருகிறது.
AI-ன் அடுத்த யுகம் என்பது வெறும் புரிதலைப் பற்றியது மட்டுமல்ல. அது நினைவில் கொள்வது, உருவகப்படுத்துவது மற்றும் நிகழ்நேரத்தில் தொடர்புகொள்வது பற்றியது.
மூலம்: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n
விருப்பத்தேர்வு கற்றல் சமூகம்: https://t.me/GyaanSetuAi
