Top AI Papers on Hugging Face 2026 06 25

Translated for your language. Read the original.

AI-assisted draft.

Top AI Papers on Hugging Face 2026 06 25

Hugging Face 'ਤੇ ਚੋਟੀ ਦੇ AI ਪੇਪਰ - 2026-06-25

AI ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਤੋਂ ਹਟ ਕੇ ਅਸਲ ਦੁਨੀਆ ਵਿੱਚ ਕਾਰਵਾਈ ਕਰਨ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ। ਮੌਜੂਦਾ ਰੁਝਾਨ ਏਜੰਟਾਂ (agents), ਮੈਮੋਰੀ ਸਿਸਟਮਾਂ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਮਲਟੀਮੋਡਲ ਮਾਡਲਾਂ 'ਤੇ ਕੇਂਦਰਿਤ ਹਨ।

ਇੱਥੇ ਚੋਟੀ ਦੇ 10 ਖੋਜ ਪੇਪਰ ਹਨ ਜੋ ਤੁਹਾਨੂੰ ਜਾਣਨੇ ਚਾਹੀਦੇ ਹਨ:

• Qwen-AgentWorld (2606.24597) ਜ਼ਿਆਦਾਤਰ ਏਜੰਟ ਸੀਮਤ ਸਿਮੂਲੇਸ਼ਨਾਂ ਵਿੱਚ ਸਿੱਖਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਇੱਕ ਭਾਸ਼ਾ ਵਿਸ਼ਵ ਮਾਡਲ (language world model) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਏਜੰਟ ਕਾਰਵਾਈਆਂ ਸਿੱਖਣ ਲਈ ਟੈਕਸਟ ਰਾਹੀਂ ਵਾਤਾਵਰਣ ਦੀ ਕਲਪਨਾ ਕਰਦਾ ਹੈ। ਇਹ ਲੰਬੇ ਸਮੇਂ ਲਈ ਯੋਜਨਾ ਬਣਾਉਣ ਵਾਲੇ AI ਸਹਾਇਕਾਂ ਨੂੰ ਬਣਾਉਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।

• MemoryData (2606.24775) ਯੂਜ਼ਰਾਂ ਅਤੇ ਪਿਛਲੇ ਕੰਮਾਂ ਨੂੰ ਯਾਦ ਰੱਖਣ ਲਈ ਏਜੰਟਾਂ ਨੂੰ ਲੰਬੇ ਸਮੇਂ ਦੀ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਹ ਪੇਪਰ ਮੈਮੋਰੀ ਨੂੰ ਡਾਟਾ ਪ੍ਰਬੰਧਨ ਦੀ ਸਮੱਸਿਆ ਵਜੋਂ ਦੇਖਦਾ ਹੈ। ਇਹ ਇਸ ਗੱਲ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਫਰੇਮਵਰਕ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਏਜੰਟ ਜਾਣਕਾਰੀ ਨੂੰ ਕਿਵੇਂ ਸਟੋਰ, ਰਿਟ੍ਰੀਵ (retrieve) ਅਤੇ ਅਪਡੇਟ ਕਰਦੇ ਹਨ।

• NatureBench (2606.24530) ਕੋਡਿੰਗ ਬੈਂਚਮਾਰਕ ਆਮ ਤੌਰ 'ਤੇ ਤਕਨੀਕੀ ਕੰਮਾਂ ਦਾ ਟੈਸਟ ਕਰਦੇ ਹਨ। NatureBench ਇਹ ਟੈਸਟ ਕਰਦਾ ਹੈ ਕਿ ਕੀ AI ਵਿਗਿਆਨਕ ਖੋਜਾਂ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਮੌਜੂਦਾ ਏਜੰਟ ਵਧੀਆ ਇੰਜੀਨੀਅਰ ਹਨ ਪਰ ਅਜੇ ਤੱਕ ਰਚਨਾਤਮਕ ਵਿਗਿਆਨੀ ਨਹੀਂ ਹਨ।

• DomainShuttle (2606.26058) Text-to-video ਮਾਡਲਾਂ ਨੂੰ ਅਕਸਰ ਕਿਸੇ ਵਿਸ਼ੇ (subject) ਨੂੰ ਇਕਸਾਰ ਰੱਖਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ। ਇਹ ਪੇਪਰ ਮਾਡਲਾਂ ਨੂੰ ਵੱਖ-ਵੱਖ ਵੀਡੀਓ ਡੋਮੇਨਾਂ ਵਿੱਚ ਇੱਕ ਖਾਸ ਵਿਅਕਤੀ ਜਾਂ ਵਸਤੂ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ। ਇਹ ਨਿੱਜੀਕਰਨ ਵਾਲੀ ਮਾਰਕੀਟਿੰਗ (personalized marketing) ਲਈ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ।

• MemGUI-Agent (2606.19926) ਮੋਬਾਈਲ ਏਜੰਟ ਅਕਸਰ ਫਲਾਈਟ ਬੁੱਕ ਕਰਨ ਵਰਗੇ ਲੰਬੇ ਕੰਮਾਂ ਦੌਰਾਨ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਪ੍ਰੋਐਕਟਿਵ ਕੰਟੈਕਸਟ ਮੈਨੇਜਮੈਂਟ (proactive context management) ਦੀ ਜਾਣ-ਪਛਾਣ ਕਰਵਾਉਂਦਾ ਹੈ। ਇਹ ਜਾਣਕਾਰੀ ਦੇ ਪ੍ਰਬੰਧਨ ਨੂੰ ਐਕਸ਼ਨ ਚੇਨ ਵਿੱਚ ਇੱਕ ਸਰਗਰਮ ਕਦਮ ਵਜੋਂ ਮੰਨਦਾ ਹੈ।

• ShutterMuse (2606.25763) ਜ਼ਿਆਦਾਤਰ AI ਫੋਟੋ ਟੂਲ ਤੁਹਾਡੇ ਦੁਆਰਾ ਤਸਵੀਰ ਖਿੱਚਣ ਤੋਂ ਬਾਅਦ ਕੰਮ ਕਰਦੇ ਹਨ। ShutterMuse ਫੋਟੋ ਖਿੱਚਣ ਦੌਰਾਨ ਕੰਪੋਜ਼ੀਸ਼ਨ ਅਤੇ ਪੋਜ਼ਿੰਗ 'ਤੇ ਰੀਅਲ-ਟਾਈਮ ਮਾਰਗਦਰਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਫੋਟੋਗ੍ਰਾਫੀ ਕੋ-ਪਾਇਲਟ (copilot) ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ।

• Wan-Streamer (2606.25041) ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਅਕਸਰ ਲਾਈਵ ਇੰਟਰੈਕਸ਼ਨ ਲਈ ਬਹੁਤ ਹੌਲੀ ਹੁੰਦੇ ਹਨ। ਇਹ ਪ੍ਰੋਜੈਕਟ ਆਡੀਓ, ਵੀਡੀਓ ਅਤੇ ਟੈਕਸਟ ਲਈ ਇੱਕ end-to-end ਸਟ੍ਰੀਮਿੰਗ ਮਾਡਲ ਬਣਾਉਂਦਾ ਹੈ। ਇਸਦਾ ਉਦੇਸ਼ ਵੀਡੀਓ ਕਾਲਾਂ ਅਤੇ AI ਹੋਸਟਾਂ ਵਿੱਚ ਘੱਟ ਲੇਟੈਂਸੀ (low latency) ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ।

• Multimodal LLM for Code (2606.15932) ਕੋਡ ਇੰਟੈਲੀਜੈਂਸ ਲਈ ਹੁਣ ਚਿੱਤਰਾਂ, ਚਾਰਟਾਂ ਅਤੇ GUIs ਨੂੰ ਸਮਝਣ ਦੀ ਲੋੜ ਹੈ। ਇਹ ਸਰਵੇਖਣ ਨਕਸ਼ਾ ਤਿਆਰ ਕਰਦਾ ਹੈ ਕਿ AI ਕੋਡ ਲਿਖਣ ਜਾਂ ਪੁਸ਼ਟੀ ਕਰਨ ਲਈ ਵਿਜ਼ੂਅਲ ਡਾਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਿਵੇਂ ਕਰ ਸਕਦਾ ਹੈ।

• AOHP (2606.23449) ਜ਼ਿਆਦਾਤਰ ਏਜੰਟ ਇੱਕ OS ਦੇ ਉੱਪਰ ਚੱਲਦੇ ਹਨ। AOHP ਐਂਡਰਾਇਡ (Android) 'ਤੇ ਅਧਾਰਤ ਇੱਕ ਏਜੰਟ-ਨੇਟਿਵ ਓਪਰੇਟਿੰਗ ਸਿਸਟਮ ਬਣਾਉਂਦਾ ਹੈ। ਇਹ AI ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਹੋਰ ਐਪ ਦੀ ਬਜਾਏ ਫ਼ੋਨ ਦਾ ਇੱਕ ਮੁੱਖ ਹਿੱਸਾ ਬਣਾਉਂਦਾ ਹੈ।

• Masked Diffusion Language Model (2606.25331) ਜ਼ਿਆਦਾਤਰ ਮਾਡਲ ਖੱਬੇ ਤੋਂ ਸੱਜੇ ਟੈਕਸਟ ਜਨਰੇਟ ਕਰਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਡਿਫਿਊਜ਼ਨ (diffusion) ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬਾਈਡਾਇਰੈਕਸ਼ਨਲ ਅਟੈਂਸ਼ਨ (bidirectional attention) ਦੀ ਪੜਚੋਲ ਕਰਦਾ ਹੈ। ਇਹ ਗਣਿਤ ਅਤੇ ਕੋਡਿੰਗ ਕੰਮਾਂ ਵਿੱਚ ਵਧੀਆ ਨਤੀਜੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।

AI ਦਾ ਅਗਲਾ ਯੁੱਗ ਸਿਰਫ਼ ਸਮਝਣ ਬਾਰੇ ਨਹੀਂ ਹੈ। ਇਹ ਯਾਦ ਰੱਖਣ, ਸਿਮੂਲੇਟ ਕਰਨ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਵਿੱਚ ਇੰਟਰੈਕਟ ਕਰਨ ਬਾਰੇ ਹੈ।

ਸਰੋਤ: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-25-4f8n

ਵਿਕਲਪਿਕ ਸਿੱਖਣ ਭਾਈਚਾਰਾ: https://t.me/GyaanSetuAi

Top AI Papers on Hugging Face 2026 06 25

Continue reading

Top AI Papers on Hugging Face

Top AI Papers on Hugging Face

Top AI Papers on Hugging Face

Hugging Face 'ਤੇ ਪ੍ਰਮੁੱਖ AI ਪੇਪਰ

Hugging Face 'ਤੇ ਪ੍ਰਮੁੱਖ AI ਪੇਪਰ