Hugging Face પરના ટોચના AI પેપર્સ
AI ની સ્પર્ધા હવે માત્ર મોડલ્સને મોટા બનાવવાથી આગળ વધી રહી છે. આજે, ધ્યાન તેના પર છે કે આપણે તેમને કેવી રીતે સર્વ (serve) કરીએ, યાદ રાખીએ અને તેનું મૂલ્યાંકન કરીએ.
અત્યારે Hugging Face પરના 10 સૌથી મહત્વપૂર્ણ AI પેપર્સ અહીં છે:
Program-as-Weights ઘણા કાર્યો સાદી અંગ્રેજીમાં વર્ણવવામાં સરળ છે પરંતુ કોડમાં લખવા મુશ્કેલ છે. દર વખતે મોટા મોડલને પ્રોમ્પ્ટ કરવાને બદલે, આ પદ્ધતિ કુદરતી ભાષાને નાના ન્યુરલ વેટ્સ (neural weights) માં કમ્પાઈલ કરવા માટે મોટા મોડલનો ઉપયોગ કરે છે. તમે આ નાના વેટ્સને હળવા મોડલ સાથે ચલાવી શકો છો. કન્ટેન્ટ મોડરેશન અથવા ઈમેલ ફિલ્ટરિંગ જેવા કાર્યો માટે તે સસ્તું અને ઝડપી છે.
AgenticSTS લાંબા ગાળાના એજન્ટ્સ ઘણીવાર નિષ્ફળ જાય છે કારણ કે તેમની મેમરી અસ્તવ્યસ્ત હોય છે. આ પેપર માત્ર કાચી ચેટ હિસ્ટ્રી રાખવાને બદલે સ્ટ્રક્ચર્ડ મેમરી લેયર્સનો ઉપયોગ કરવાનું સૂચવે છે. તે એજન્ટ્સને સ્ટ્રેટેજી ગેમ્સ અથવા લાંબા સંશોધન પ્રોજેક્ટ્સ જેવા જટિલ કાર્યો સંભાળવામાં મદદ કરે છે.
PerceptionRubrics વર્તમાન મલ્ટિમોડલ બેન્ચમાર્ક ઘણીવાર ઊંચા સ્કોર બતાવે છે પરંતુ વાસ્તવિક દુનિયામાં નબળું પ્રદર્શન કરે છે. આ ફ્રેમવર્ક મોડલ્સ દુનિયાને કેવી રીતે જુએ છે તેનું ગ્રેડિંગ કરવા માટે વિગતવાર રૂબ્રિક્સ (rubrics) નો ઉપયોગ કરે છે. તે ડેવલપર્સને વિઝ્યુઅલ આસિસ્ટન્ટ્સ અને OCR ટૂલ્સમાં થતી નાની ભૂલો સુધારવામાં મદદ કરે છે.
EvoPolicyGym એજન્ટ્સ માત્ર અનુમાન લગાવ્યા વગર પોતાની જાતને કેવી રીતે સુધારી શકે? આ પેપર પરીક્ષણ કરે છે કે શું એજન્ટ્સ ફીડબેક વાંચી શકે છે અને તેમના પોતાના વર્તનને અપડેટ કરી શકે છે. તે રોબોટિક્સ અને ઓટોમેટેડ વર્કફ્લો માટે ઉપયોગી છે.
FlashMorph લાંબા દસ્તાવેજો માટે Transformers માં ફૂલ એટેન્શન (full attention) મોંઘું પડે છે. FlashMorph કયા લેયર્સને ફૂલ એટેન્શનની જરૂર છે અને કયા લેયર્સ સસ્તા લિનિયર એટેન્શનનો ઉપયોગ કરી શકે છે તે પસંદ કરીને શ્રેષ્ઠ સંતુલન શોધે છે. તે લીગલ અથવા કોડિંગ આસિસ્ટન્ટ્સ માટે ઉત્તમ છે.
TurboServe ટેક્સ્ટ જનરેટ કરવા કરતાં વિડિયો જનરેટ કરવો ઘણો મુશ્કેલ છે કારણ કે તેમાં વિશાળ GPU રિસોર્સિસની જરૂર પડે છે. TurboServe ડેટા ચંક્સ સિસ્ટમમાં કેવી રીતે ખસે છે તેનું ઓપ્ટિમાઇઝેશન કરીને વિડિયો સ્ટ્રીમિંગનું સંચાલન કરે છે. આ મોટા પાયે ટેક્સ્ટ-ટુ-વિડિયો પ્લેટફોર્મ્સ માટે મહત્વપૂર્ણ છે.
ELDR Mixture-of-Experts (MoE) મોડલ્સમાં, એક્સપર્ટ્સ વચ્ચે ડેટા ખસેડવાથી બોટલનેક (bottlenecks) સર્જાય છે. ELDR અનુમાન લગાવે છે કે વિનંતી (request) ને કયા એક્સપર્ટ્સની જરૂર છે અને તેને સ્માર્ટલી રૂટ કરે છે. આ મોટા પાયે LLM ઇન્ફરન્સ માટે લેટન્સી (latency) ઘટાડે છે.
Asymmetric Mutual Variational Learning મલ્ટિમોડલ મોડલ્સ ક્યારેક ટ્રેનિંગ દરમિયાન તેમના લેટન્ટ સ્પેસમાં જવાબ જોઈને "છેતરપિંડી" કરે છે. આ પદ્ધતિ રીઝનિંગને સ્થિર કરે છે જેથી વાસ્તવિક દુનિયાના ઉપયોગ દરમિયાન મોડલ્સ સચોટ રહે. તે મેડિકલ ઇમેજિંગ માટે ઉત્તમ છે.
Seed2.0 મોટાભાગના મોડલ્સ બેન્ચમાર્ક પર શ્રેષ્ઠ પ્રદર્શન કરે છે પરંતુ વાસ્તવિક દુનિયાની જટિલતામાં નિષ્ફળ જાય છે. Seed2.0 અસ્તવ્યસ્ત, વાસ્તવિક દુનિયાના વાતાવરણમાં રીઝનિંગ, ઇમેજ અન્ડરસ્ટેન્ડિંગ અને સર્ચ પર ધ્યાન કેન્દ્રિત કરે છે.
MemSyco-Bench મેમરી એજન્ટને "સિકોફન્ટિક" (sycophantic) બનાવી શકે છે, જેનો અર્થ છે કે તે ફક્ત મદદરૂપ થવા માટે તમારી સાથે સહમત થાય છે, ભલે તમે ખોટા હોવ. આ પેપર માપે છે કે મેમરી કેવી રીતે એજન્ટના રીઝનિંગમાં પૂર્વગ્રહ (bias) લાવી શકે છે. પ્રમાણિક AI સાથીઓ બનાવવા માટે તે નિર્ણાયક છે.
મુખ્ય વાત: સિસ્ટમ આર્કિટેક્ચર, મેમરી ડિઝાઇન અને ડિપ્લોયમેન્ટ ખર્ચ હવે મોડલ્સ જેટલા જ મહત્વપૂર્ણ છે.
સ્ત્રોત: https://dev.to/y_hnhnhan_2f26de65ffcc4/top-ai-papers-on-hugging-face-2026-07-03-2mpn
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi
