أهم أوراق الذكاء الاصطناعي البحثية على Hugging Face - 2026-06-25
ينتقل الذكاء الاصطناعي من مجرد الإجابة على الأسئلة إلى اتخاذ إجراءات في العالم الحقيقي. تركز الاتجاهات الحالية على الوكلاء (agents)، وأنظمة الذاكرة، والنماذج متعددة الوسائط (multimodal models) في الوقت الفعلي.
إليك أهم 10 أوراق بحثية يجب أن تعرفها:
• Qwen-AgentWorld (2606.24597) تتعلم معظم الوكلاء في بيئات محاكاة محدودة. تستخدم هذه الورقة نموذج عالم لغوي (language world model)؛ حيث يتخيل الوكيل البيئات من خلال النص لتعلم الإجراءات، مما يساعد في بناء مساعدين ذكاء اصطناعي يخططون على المدى الطويل.
• MemoryData (2606.24775) يحتاج الوكلاء إلى ذاكرة طويلة المدى لتذكر المستخدمين والمهام السابقة. تتعامل هذه الورقة مع الذاكرة كمسألة إدارة بيانات، حيث تضع إطار عمل لتقييم كيفية قيام الوكلاء بتخزين المعلومات واسترجاعها وتحديثها.
• NatureBench (2606.24530) عادةً ما تختبر معايير البرمجة المهام التقنية، لكن NatureBench يختبر ما إذا كان بإمكان الذكاء الاصطناعي دعم الاكتشاف العلمي. وتظهر النتائج أن الوكلاء الحاليين مهندسون رائعون، لكنهم ليسوا علماء مبدعين بعد.
• DomainShuttle (2606.26058) غالبًا ما تواجه نماذج تحويل النص إلى فيديو صعوبة في الحفاظ على اتساق الموضوع. تساعد هذه الورقة النماذج على الحفاظ على شخص أو كائن معين عبر مجالات فيديو مختلفة، وهو أمر حيوي للتسويق المخصص.
• MemGUI-Agent (2606.19926) غالبًا ما تفشل الوكلاء المحمولة أثناء المهام الطويلة مثل حجز رحلة طيران. تقدم هذه الورقة إدارة سياق استباقية، حيث تتعامل مع إدارة المعلومات كخطوة نشطة في سلسلة الإجراءات.
• ShutterMuse (2606.25763) تعمل معظم أدوات الصور المدعومة بالذكاء الاصطناعي بعد التقاط الصورة. يوفر ShutterMuse توجيهات في الوقت الفعلي حول التكوين والوضعيات أثناء التصوير، حيث يعمل كمساعد طيار (copilot) للتصوير الفوتوغرافي.
• Wan-Streamer (2606.25041) غالبًا ما تكون النماذج متعددة الوسائط بطيئة جدًا للتفاعل المباشر. يبني هذا المشروع نموذج بث متكامل (end-to-end) للصوت والفيديو والنص، ويهدف إلى تحقيق زمن انتقال منخفض في مكالمات الفيديو والمضيفين الافتراضيين المدعومين بالذكاء الاصطناعي.
• Multimodal LLM for Code (2606.15932) تتطلب ذكاء البرمجة الآن فهم الصور والمخططات وواجهات المستخدم الرسومية (GUIs). ترسم هذه الدراسة المسحية كيف يمكن للذكاء الاصطناعي تحليل البيانات المرئية لكتابة الكود أو التحقق منه.
• AOHP (2606.23449) تعمل معظم الوكلاء فوق نظام تشغيل. يقوم AOHP ببناء نظام تشغيل أصيل للوكلاء (agent-native) يعتمد على Android، مما يجعل الذكاء الاصطناعي جزءًا أساسيًا من الهاتف بدلاً من مجرد تطبيق آخر.
• Masked Diffusion Language Model (2606.25331) تولد معظم النماذج النصوص من اليسار إلى اليمين. تستكشف هذه الورقة الانتباه ثنائي الاتجاه (bidirectional attention) باستخدام الانتشار (diffusion)، وتنتج نتائج تنافسية في مهام الرياضيات والبرمجة.
إن العصر القادم للذكاء الاصطناعي لا يتعلق بالفهم فحسب، بل يتعلق بالتذكر والمحاكاة والتفاعل في الوقت الفعلي.
المصدر: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi
