AI/ML रिसर्च डाइजेस्ट — 20 जून, 2026
नया शोध दिखाता है कि एजेंट चीजों को कैसे याद रखते हैं और मॉडल कोड को अधिक कुशलता से कैसे प्रोसेस करते हैं।
एजेंटों के लिए मेमोरी और स्टेट (Memory and State for Agents)
एजेंटों को अपने आस-पास की दुनिया को याद रखने की आवश्यकता होती है।
• लीनियर-टेम्पोरल अटेंशन (Linear-temporal attention) एक रनिंग वर्ल्ड मॉडल बनाता है। यह एजेंटों को हर बार सब कुछ फिर से कंप्यूट करने से रोकता है। • एसोसिएटिव ग्राफ मेमोरीज़ (Associative graph memories) ऑब्जर्वेशन को लिंक्ड नोड्स के रूप में स्टोर करती हैं। यह एजेंटों को लंबे अंतराल के बाद जानकारी याद करने में मदद करता है। • ये तरीके इनपुट स्ट्रीम के रुकने और शुरू होने पर व्यवहार को स्थिर बनाए रखने की समस्या का समाधान करते हैं।
बेहतर रीइन्फोर्समेंट लर्निंग (Better Reinforcement Learning)
• स्टेप-लेवल क्रेडिट असाइनमेंट (Step-level credit assignment) एजेंटों को स्पष्ट संकेत देता है। यह दिखाता है कि किन विशिष्ट कार्यों से रिवॉर्ड मिला। • क्वालिटी-अवेयर सेल्फ-डिस्टिलेशन (Quality-aware self-distillation) छोटे मॉडल्स को बारीक विवरण बनाए रखने में मदद करता है। यह अधिक ट्रेनिंग डेटा की आवश्यकता के बिना रीजनिंग (reasoning) में सुधार करता है।
डिफ्यूजन और टोकन में दक्षता (Efficiency in Diffusion and Tokens)
• एडेप्टिव टोकन कम्प्रेशन (Adaptive token compression) इमेज के बेकार हिस्सों को हटा देता है। यह क्वालिटी को उच्च रखते हुए लागत को कम करता है। • फ्रीक्वेंसी-अवेयर स्पेक्ट्रल फोर्सिंग (Frequency-aware spectral forcing) समान स्तर की डिटेल तक पहुँचने के लिए कम पैरामीटर्स का उपयोग करती है। • FastContext फ़ाइल पाथ खोजने के लिए एक छोटे सब-एजेंट का उपयोग करता है। यह टोकन के उपयोग को 60% तक कम करता है और कोडिंग कार्यों में सफलता में सुधार करता है। • विजुअल रिपॉजिटरी मैप्स (Visual repository maps) कोड को इमेज में बदल देते हैं। यह लंबे कोड कार्यों के लिए टोकन के उपयोग को 26% तक कम कर देता है।
कोड और मॉडल स्थिरता (Code and Model Stability)
• वर्तमान मॉडल नॉन-पायथन (non-Python) भाषाओं के साथ संघर्ष करते हैं। कुछ भाषाओं पर प्रदर्शन में 40% की गिरावट आती है। • नए 4-बिट प्रीट्रेनिंग तरीके त्रुटियों को रोकने के लिए एक यूनिफॉर्म ग्रिड का उपयोग करते हैं। यह बड़े मॉडल्स को अधिक विश्वसनीय बनाता है।
सुरक्षा और जोखिम (Safety and Risks)
• स्पार्स ऑटोएनकोडर्स (Sparse autoencoders) अस्थिर होते हैं। फीचर्स रैंडम सीड्स (random seeds) के आधार पर बदल जाते हैं। • AI न्यूरॉन्स में लक्षित सुधार (Targeted fixes) अक्सर विफल हो जाते हैं क्योंकि हानिकारक व्यवहार फिर से उभर आते हैं। • AI रिव्यूअर्स को धोखा देना आसान है। पेपर के दिखने के तरीके को बदलने से एक ऑटोमेटेड रिव्यूअर को मूर्ख बनाया जा सकता है, भले ही कंटेंट वही रहे।
स्रोत: https://dev.to/olaughter/aiml-research-digest-jun-20-2026-4neg
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi