AI/ML रिसर्च डायजेस्ट — २० जून, २०२६
नवीन संशोधन दर्शवते की एजंट्स गोष्टी कशा लक्षात ठेवतात आणि मॉडेल्स कोड अधिक कार्यक्षमतेने कसा प्रोसेस करतात.
Memory and State for Agents
एजंट्सना त्यांच्या सभोवतालच्या जगाची माहिती लक्षात ठेवणे आवश्यक असते.
• लिनियर-टेम्पोरल अटेंशन (Linear-temporal attention) एक चालू वर्ल्ड मॉडेल तयार करते. यामुळे एजंट्सना प्रत्येक वेळी सर्व काही पुन्हा संगणकीय प्रक्रिया (recompute) करण्याची गरज पडत नाही. • असोसिएटिव्ह ग्राफ मेमरीज (Associative graph memories) निरीक्षणांना लिंक केलेल्या नोड्सच्या स्वरूपात साठवतात. यामुळे एजंट्सना दीर्घ काळानंतरही माहिती आठवण्यास मदत होते. • जेव्हा इनपुट स्ट्रीम्स थांबतात आणि सुरू होतात, तेव्हा वर्तन स्थिर ठेवण्याच्या समस्येवर ही पद्धत उपाय शोधते.
Better Reinforcement Learning
• स्टेप-लेव्हल क्रेडिट असाइनमेंट (Step-level credit assignment) एजंट्सना स्पष्ट संकेत देते. कोणत्या विशिष्ट कृतीमुळे रिवॉर्ड मिळाला हे यातून समजते. • क्वालिटी-अवेअर सेल्फ-डिस्टिलेशन (Quality-aware self-distillation) लहान मॉडेल्सना सूक्ष्म तपशील लक्षात ठेवण्यास मदत करते. यामुळे अधिक ट्रेनिंग डेटाशिवाय तर्कक्षमता (reasoning) सुधारते.
Efficiency in Diffusion and Tokens
• अडॅप्टिव्ह टोकन कॉम्प्रेशन (Adaptive token compression) प्रतिमेचे निरुपयोगी भाग काढून टाकते. यामुळे गुणवत्ता उच्च ठेवून खर्च कमी होतो. • फ्रिक्वेन्सी-अवेअर स्पेक्ट्रल फोर्सिंग (Frequency-aware spectral forcing) समान तपशील मिळवण्यासाठी कमी पॅरामीटर्स वापरते. • FastContext फाईल पाथ शोधण्यासाठी एका लहान सब-एजंटचा वापर करते. यामुळे टोकनचा वापर ६०% ने कमी होतो आणि कोडिंग कामांमधील यश सुधारते. • व्हिज्युअल रिपॉझिटरी मॅप्स (Visual repository maps) कोडचे प्रतिमांमध्ये रूपांतर करतात. यामुळे लांब कोडिंग कामांसाठी टोकनचा वापर २६% ने कमी होतो.
Code and Model Stability
• सध्याची मॉडेल्स नॉन-पायथन (non-Python) भाषांसोबत संघर्ष करतात. काही भाषांमध्ये कामगिरी ४०% ने घटते. • नवीन ४-बिट प्रीट्रेनिंग पद्धती त्रुटी रोखण्यासाठी युनिफॉर्म ग्रिडचा वापर करतात. यामुळे मोठी मॉडेल्स अधिक विश्वसनीय बनतात.
Safety and Risks
• स्पार्स ऑटोएनकोडर्स (Sparse autoencoders) अस्थिर असतात. रँडम सीड्सच्या (random seeds) आधारावर वैशिष्ट्ये बदलतात. • AI न्यूरॉन्समधील लक्ष्यित सुधारणा अनेकदा अयशस्वी ठरतात कारण हानिकारक वर्तन पुन्हा दिसून येते. • AI रिव्ह्यूअर्सना फसवणे सोपे आहे. पेपरचे स्वरूप बदलल्यास मजकूर तोच असूनही ऑटोमेटेड रिव्ह्यूअरची दिशाभूल होऊ शकते.
Source: https://dev.to/olaughter/aiml-research-digest-jun-20-2026-4neg
Optional learning community: https://t.me/GyaanSetuAi