Hugging Face 'ਤੇ ਚੋਟੀ ਦੇ AI ਪੇਪਰ
AI ਤਿੰਨ ਦਿਸ਼ਾਵਾਂ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਅੱਗੇ ਵਧ ਰਿਹਾ ਹੈ। Agents ਹੋਰ ਸਮਾਰਟ ਹੋ ਰਹੇ ਹਨ। ਵੀਡੀਓ ਜਨਰੇਸ਼ਨ ਵਧੇਰੇ ਲਚਕਦਾਰ ਹੋ ਰਹੀ ਹੈ। Multimodal ਮਾਡਲ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੋ ਰਹੇ ਹਨ।
ਅੱਜ Hugging Face ਤੋਂ 10 ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ AI ਪੇਪਰ ਇੱਥੇ ਹਨ।
Agent Memory Systems ਜ਼ਿਆਦਾਤਰ agents ਕੋਲ ਯੂਜ਼ਰ ਦੀ ਹਿਸਟਰੀ ਜਾਂ ਟਾਸਕ ਪਲਾਨਾਂ ਨੂੰ ਯਾਦ ਰੱਖਣ ਦਾ ਕੋਈ ਅਸਲੀ ਤਰੀਕਾ ਨਹੀਂ ਹੁੰਦਾ। ਇਹ ਪੇਪਰ ਮੈਮੋਰੀ ਨੂੰ ਇੱਕ ਡਾਟਾ ਮੈਨੇਜਮੈਂਟ ਸਿਸਟਮ ਵਾਂਗ ਮੰਨਦਾ ਹੈ। ਇਹ ਸਟੋਰੇਜ, ਰਿਟ੍ਰੀਵਲ (retrieval) ਅਤੇ ਅੱਪਡੇਟਸ ਲਈ ਮੋਡਿਊਲਸ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਲੰਬੇ ਸਮੇਂ ਦੇ AI ਅਸਿਸਟੈਂਟਾਂ ਅਤੇ ਨਿੱਜੀ ਟਿਊਟਰਾਂ ਲਈ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਹੈ।
DomainShuttle: Consistent Video Generation ਇੱਕੋ ਕਿਰਦਾਰ ਦੇ ਨਾਲ ਵੀਡੀਓ ਬਣਾਉਣਾ ਮੁਸ਼ਕਲ ਹੈ। ਇਹ ਪੇਪਰ ਵੱਖ-ਵੱਖ ਸੀਨਾਂ ਵਿੱਚ ਵਿਸ਼ਿਆਂ (subjects) ਨੂੰ ਇਕਸਾਰ ਰੱਖਣ ਲਈ domain-aware ਮਾਡਲਿੰਗ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਰਕੀਟਿੰਗ ਅਤੇ ਫਿਲਮ ਉਤਪਾਦਨ ਵਿੱਚ ਮਦਦ ਕਰਦਾ ਹੈ।
DanceOPD: All-in-One Image Generation ਵੱਖ-ਵੱਖ ਕੰਮਾਂ ਲਈ ਬਹੁਤ ਸਾਰੇ ਮਾਡਲਾਂ ਦੀ ਬਜਾਏ, ਇਹ ਪੇਪਰ ਕਈ ਮਾਹਰ ਹੁਨਰਾਂ ਨੂੰ ਇੱਕ ਸਟੂਡੈਂਟ ਮਾਡਲ ਵਿੱਚ ਸਮੇਟ ਦਿੰਦਾ ਹੈ। ਤੁਸੀਂ ਇਸਦੀ ਵਰਤੋਂ ਬੈਕਗ੍ਰਾਊਂਡ ਬਦਲਣ ਜਾਂ ਵਸਤੂਆਂ ਜੋੜਨ ਵਰਗੇ ਇੱਕ-ਸਟਾਪ ਇਮੇਜ ਐਡੀਟਿੰਗ ਲਈ ਕਰ ਸਕਦੇ ਹੋ।
ShutterMuse: Real-Time Photography Guide ਜ਼ਿਆਦਾਤਰ AI ਫੋਟੋ ਖਿੱਚਣ ਤੋਂ ਬਾਅਦ ਐਡੀਟਿੰਗ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਫੋਟੋ ਖਿੱਚਣ ਦੇ ਪਲ 'ਤੇ ਧਿਆਨ ਦਿੰਦਾ ਹੈ। ਇਹ ਰੀਅਲ-ਟਾਈਮ ਵਿੱਚ ਬਿਹਤਰ ਕੰਪੋਜ਼ੀਸ਼ਨ ਅਤੇ ਪੋਜ਼ ਸੁਝਾਉਂਦਾ ਹੈ। ਇਹ ਸਮਾਰਟਫੋਨ ਕੈਮਰਾ ਐਪਸ ਵਿੱਚ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ।
ViQ: Efficient Visual Representation Multimodal ਮਾਡਲ ਅਕਸਰ ਤਸਵੀਰਾਂ ਲਈ ਬਹੁਤ ਜ਼ਿਆਦਾ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ। ViQ ਮਾਡਲਾਂ ਨੂੰ ਹਲਕਾ ਅਤੇ ਤੇਜ਼ ਰੱਖਣ ਲਈ quantized visual tokens ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਛੋਟੇ ਡਿਵਾਈਸਾਂ 'ਤੇ ਹਾਈ-ਰੈਜ਼ੋਲਿਊਸ਼ਨ ਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
Diffusion Language Models ਜ਼ਿਆਦਾਤਰ LLMs ਖੱਬੇ ਤੋਂ ਸੱਜੇ ਪੜ੍ਹਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਮਾਸਕਡ ਟੋਕਨਸ (masked tokens) ਨੂੰ ਡੀਨੋਇਜ਼ (denoising) ਕਰਕੇ ਟੈਕਸਟ ਜਨਰੇਟ ਕਰਨ ਲਈ ਡਿਫਿਊਜ਼ਨ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਗੁੰਝਲਦਾਰ ਤਰਕ ਵਾਲੇ ਕੰਮਾਂ 'ਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ ਅਤੇ ਕੋਡ ਐਡੀਟਿੰਗ ਲਈ ਬਹੁਤ ਵਧੀਆ ਹੈ।
Multimodal Code Intelligence AI ਹੁਣ GUI ਜਾਂ ਚਾਰਟ ਵਰਗੀਆਂ ਤਸਵੀਰਾਂ ਨੂੰ ਦੇਖ ਕੇ ਕੋਡ ਲਿਖ ਸਕਦਾ ਹੈ। ਇਹ ਸਰਵੇਖਣ ਇਸ ਗੱਲ ਦੀ ਜਾਂਚ ਕਰਨ 'ਤੇ ਕੇਂਦਰਿਤ ਹੈ ਕਿ ਕੀ ਜਨਰੇਟ ਕੀਤਾ ਗਿਆ ਕੋਡ ਅਸਲ ਵਿੱਚ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਆਟੋਮੇਟਡ ਵੈੱਬ ਡਿਵੈਲਪਮੈਂਟ ਲਈ ਇੱਕ ਵੱਡਾ ਕਦਮ ਹੈ।
Qwen-Image-Agent ਵਧੀਆ ਤਸਵੀਰਾਂ ਲਈ ਟੈਕਸਟ ਪ੍ਰੋਂਪਟ ਅਕਸਰ ਬਹੁਤ ਛੋਟੇ ਹੁੰਦੇ ਹਨ। ਇਹ ਸਿਸਟਮ ਇੱਕ ਏਜੰਟ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਡਰਾਇੰਗ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਸੰਦਰਭ (context) ਬਣਾਉਣ ਲਈ ਯੋਜਨਾ ਬਣਾਉਂਦਾ ਹੈ, ਸਰਚ ਕਰਦਾ ਹੈ ਅਤੇ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਸਾਨੂੰ text-to-image ਤੋਂ image-generation agents ਵੱਲ ਲੈ ਜਾਂਦਾ ਹੈ।
MVTrack4Gen: Geometric Video Consistency ਜਦੋਂ ਕੈਮਰਾ ਹਿੱਲਦਾ ਹੈ ਤਾਂ ਵੀਡੀਓਜ਼ ਵਿੱਚ ਅਕਸਰ ਆਕਾਰ ਵਿਗਾੜੇ ਹੋਏ ਹੁੰਦੇ ਹਨ। ਇਹ ਪੇਪਰ ਜਿਓਮੈਟ੍ਰਿਕ ਇਕਸਾਰਤਾ (geometric consistency) ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ multi-view tracking ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ AR, VR, ਅਤੇ 3D ਕੰਟੈਂਟ ਲਈ ਜ਼ਰੂਰੀ ਹੈ।
OPID: Efficient Agent Training Reinforcement learning ਨਾਲ agents ਨੂੰ ਸਿਖਾਉਣਾ ਹੌਲੀ ਹੁੰਦਾ ਹੈ। OPID ਏਜੰਟ ਨੂੰ ਵਿਚਕਾਰਲੇ ਹੁਨਰ ਸਿਖਾਉਣ ਲਈ ਪੂਰੇ ਕੀਤੇ ਗਏ ਕੰਮਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਕੋਡਿੰਗ ਅਤੇ ਵੈੱਬ ਏਜੰਟਾਂ ਲਈ ਸਿੱਖਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਬਹੁਤ ਤੇਜ਼ ਬਣਾਉਂਦਾ ਹੈ।
ਰੁਝਾਨਾਂ ਦਾ ਸਾਰ:
- Agents ਮੈਮੋਰੀ ਅਤੇ ਯੋਜਨਾਬੰਦੀ ਦੇ ਨਾਲ ਸੰਪੂਰਨ ਸਿਸਟਮ ਬਣ ਰਹੇ ਹਨ।
- ਜਨਰੇਸ਼ਨ ਬਿਹਤਰ ਸੰਦਰਭ ਅਤੇ ਇਕਸਾਰਤਾ ਵੱਲ ਵਧ ਰਹੀ ਹੈ।
- ਵੱਡੇ ਪੱਧਰ ਦੇ AI ਲਈ ਕੁਸ਼ਲ ਡਾਟਾ ਰਿਪ੍ਰਜ਼ੈਂਟੇਸ਼ਨ ਮਹੱਤਵਪੂਰਨ ਹੈ।
- ਡਿਫਿਊਜ਼ਨ ਤਸਵੀਰਾਂ ਤੋਂ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਤੱਕ ਫੈਲ ਰਿਹਾ ਹੈ।
ਸਰੋਤ: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-06-26-197k
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi
