Hugging Face 'ਤੇ ਚੋਟੀ ਦੇ AI ਪੇਪਰ - 2026-06-25

AI ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਤੋਂ ਹਟ ਕੇ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਕਾਰਵਾਈ ਕਰਨ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ। ਮੌਜੂਦਾ ਰੁਝਾਨ ਏਜੰਟਾਂ (agents), ਮੈਮੋਰੀ ਸਿਸਟਮਾਂ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਮਲਟੀਮੋਡਲ ਮਾਡਲਾਂ 'ਤੇ ਕੇਂਦਰਿਤ ਹਨ।

ਇੱਥੇ ਚੋਟੀ ਦੇ 10 ਖੋਜ ਪੇਪਰ ਹਨ ਜੋ ਤੁਹਾਨੂੰ ਜਾਣਨੇ ਚਾਹੀਦੇ ਹਨ:

• Qwen-AgentWorld (2606.24597) ਜ਼ਿਆਦਾਤਰ ਏਜੰਟ ਸੀਮਤ ਸਿਮੂਲੇਸ਼ਨਾਂ ਵਿੱਚ ਸਿੱਖਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਇੱਕ ਭਾਸ਼ਾ ਵਿਸ਼ਵ ਮਾਡਲ (language world model) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਏਜੰਟ ਕਾਰਵਾਈਆਂ ਸਿੱਖਣ ਲਈ ਟੈਕਸਟ ਰਾਹੀਂ ਵਾਤਾਵਰਣ ਦੀ ਕਲਪਨਾ ਕਰਦਾ ਹੈ। ਇਹ ਲੰਬੇ ਸਮੇਂ ਲਈ ਯੋਜਨਾ ਬਣਾਉਣ ਵਾਲੇ AI ਸਹਾਇਕਾਂ ਨੂੰ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।

• MemoryData (2606.24775) ਯੂਜ਼ਰਾਂ ਅਤੇ ਪਿਛਲੇ ਕੰਮਾਂ ਨੂੰ ਯਾਦ ਰੱਖਣ ਲਈ ਏਜੰਟਾਂ ਨੂੰ ਲੰਬੇ ਸਮੇਂ ਦੀ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਪੇਪਰ ਮੈਮੋਰੀ ਨੂੰ ਡਾਟਾ ਪ੍ਰਬੰਧਨ ਦੀ ਸਮੱਸਿਆ ਵਜੋਂ ਦੇਖਦਾ ਹੈ। ਇਹ ਇਸ ਗੱਲ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਫਰੇਮਵਰਕ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਏਜੰਟ ਜਾਣਕਾਰੀ ਨੂੰ ਕਿਵੇਂ ਸਟੋਰ, ਰਿਟ੍ਰੀਵ (retrieve) ਅਤੇ ਅਪਡੇਟ ਕਰਦੇ ਹਨ।

• NatureBench (2606.24530) ਕੋਡਿੰਗ ਬੈਂਚਮਾਰਕ ਆਮ ਤੌਰ 'ਤੇ ਤਕਨੀਕੀ ਕੰਮਾਂ ਦਾ ਟੈਸਟ ਕਰਦੇ ਹਨ। NatureBench ਇਹ ਟੈਸਟ ਕਰਦਾ ਹੈ ਕਿ ਕੀ AI ਵਿਗਿਆਨਕ ਖੋਜਾਂ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਮੌਜੂਦਾ ਏਜੰਟ ਵਧੀਆ ਇੰਜੀਨੀਅਰ ਹਨ ਪਰ ਅਜੇ ਤੱਕ ਰਚਨਾਤਮਕ ਵਿਗਿਆਨੀ ਨਹੀਂ ਹਨ।

• DomainShuttle (2606.26058) Text-to-video ਮਾਡਲਾਂ ਨੂੰ ਅਕਸਰ ਕਿਸੇ ਵਿਸ਼ੇ (subject) ਨੂੰ ਇਕਸਾਰ ਰੱਖਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ। ਇਹ ਪੇਪਰ ਮਾਡਲਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਵੀਡੀਓ ਡੋਮੇਨਾਂ ਵਿੱਚ ਇੱਕ ਖਾਸ ਵਿਅਕਤੀ ਜਾਂ ਵਸਤੂ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਇਹ ਨਿੱਜੀਕਰਨ ਵਾਲੀ ਮਾਰਕੀਟਿੰਗ (personalized marketing) ਲਈ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ।

• MemGUI-Agent (2606.19926) ਮੋਬਾਈਲ ਏਜੰਟ ਅਕਸਰ ਫਲਾਈਟ ਬੁੱਕ ਕਰਨ ਵਰਗੇ ਲੰਬੇ ਕੰਮਾਂ ਦੌਰਾਨ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਪ੍ਰੋਐਕਟਿਵ ਕੰਟੈਕਸਟ ਮੈਨੇਜਮੈਂਟ (proactive context management) ਦੀ ਜਾਣ-ਪਛਾਣ ਕਰਵਾਉਂਦਾ ਹੈ। ਇਹ ਜਾਣਕਾਰੀ ਦੇ ਪ੍ਰਬੰਧਨ ਨੂੰ ਐਕਸ਼ਨ ਚੇਨ ਵਿੱਚ ਇੱਕ ਸਰਗਰਮ ਕਦਮ ਵਜੋਂ ਮੰਨਦਾ ਹੈ।

• ShutterMuse (2606.25763) ਜ਼ਿਆਦਾਤਰ AI ਫੋਟੋ ਟੂਲ ਤੁਹਾਡੇ ਦੁਆਰਾ ਤਸਵੀਰ ਖਿੱਚਣ ਤੋਂ ਬਾਅਦ ਕੰਮ ਕਰਦੇ ਹਨ। ShutterMuse ਫੋਟੋ ਖਿੱਚਣ ਦੌਰਾਨ ਕੰਪੋਜ਼ੀਸ਼ਨ ਅਤੇ ਪੋਜ਼ਿੰਗ 'ਤੇ ਰੀਅਲ-ਟਾਈਮ ਮਾਰਗਦਰਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਫੋਟੋਗ੍ਰਾਫੀ ਕੋ-ਪਾਇਲਟ (copilot) ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ।

• Wan-Streamer (2606.25041) ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਅਕਸਰ ਲਾਈਵ ਇੰਟਰੈਕਸ਼ਨ ਲਈ ਬਹੁਤ ਹੌਲੀ ਹੁੰਦੇ ਹਨ। ਇਹ ਪ੍ਰੋਜੈਕਟ ਆਡੀਓ, ਵੀਡੀਓ ਅਤੇ ਟੈਕਸਟ ਲਈ ਇੱਕ end-to-end ਸਟ੍ਰੀਮਿੰਗ ਮਾਡਲ ਬਣਾਉਂਦਾ ਹੈ। ਇਸਦਾ ਉਦੇਸ਼ ਵੀਡੀਓ ਕਾਲਾਂ ਅਤੇ AI ਹੋਸਟਾਂ ਵਿੱਚ ਘੱਟ ਲੇਟੈਂਸੀ (low latency) ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ।

• Multimodal LLM for Code (2606.15932) ਕੋਡ ਇੰਟੈਲੀਜੈਂਸ ਲਈ ਹੁਣ ਚਿੱਤਰਾਂ, ਚਾਰਟਾਂ ਅਤੇ GUIs ਨੂੰ ਸਮਝਣ ਦੀ ਲੋੜ ਹੈ। ਇਹ ਸਰਵੇਖਣ ਨਕਸ਼ਾ ਤਿਆਰ ਕਰਦਾ ਹੈ ਕਿ AI ਕੋਡ ਲਿਖਣ ਜਾਂ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ ਵਿਜ਼ੂਅਲ ਡਾਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਿਵੇਂ ਕਰ ਸਕਦਾ ਹੈ।

• AOHP (2606.23449) ਜ਼ਿਆਦਾਤਰ ਏਜੰਟ ਇੱਕ OS ਦੇ ਉੱਪਰ ਚੱਲਦੇ ਹਨ। AOHP ਐਂਡਰਾਇਡ (Android) 'ਤੇ ਅਧਾਰਤ ਇੱਕ ਏਜੰਟ-ਨੇਟਿਵ ਓਪਰੇਟਿੰਗ ਸਿਸਟਮ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ AI ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਹੋਰ ਐਪ ਦੀ ਬਜਾਏ ਫ਼ੋਨ ਦਾ ਇੱਕ ਮੁੱਖ ਹਿੱਸਾ ਬਣਾਉਂਦਾ ਹੈ।

• Masked Diffusion Language Model (2606.25331) ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਖੱਬੇ ਤੋਂ ਸੱਜੇ ਟੈਕਸਟ ਜਨਰੇਟ ਕਰਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਡਿਫਿਊਜ਼ਨ (diffusion) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਾਈਡਾਇਰੈਕਸ਼ਨਲ ਅਟੈਂਸ਼ਨ (bidirectional attention) ਦੀ ਪੜਚੋਲ ਕਰਦਾ ਹੈ। ਇਹ ਗਣਿਤ ਅਤੇ ਕੋਡਿੰਗ ਕੰਮਾਂ ਵਿੱਚ ਵਧੀਆ ਨਤੀਜੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

AI ਦਾ ਅਗਲਾ ਯੁੱਗ ਸਿਰਫ਼ ਸਮਝਣ ਬਾਰੇ ਨਹੀਂ ਹੈ। ਇਹ ਯਾਦ ਰੱਖਣ, ਸਿਮੂਲੇਟ ਕਰਨ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਵਿੱਚ ਇੰਟਰੈਕਟ ਕਰਨ ਬਾਰੇ ਹੈ।

ਸਰੋਤ: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਭਾਈਚਾਰਾ: https://t.me/GyaanSetuAi