𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

📅4 hours ago⏱2 min read

ટ્રાન્સફોર્મર્સ કેવી રીતે કામ કરે છે

ટ્રાન્સફોર્મર્સે AI ને બદલી નાખ્યું છે. તેઓએ એક સમયે એક શબ્દ વાંચવાની પદ્ધતિ છોડી દીધી છે.

RNNs જેવા જૂના મોડલ્સ સ્ટેપ-બાય-સ્ટેપ આગળ વધતા હતા. ટ્રાન્સફોર્મર્સ એક જ સમયે સિક્વન્સના તમામ શબ્દોની તુલના કરે છે. આ ડિઝાઈનને કારણે જ આધુનિક LLMs શક્ય બન્યા છે.

ટ્રાન્સફોર્મર એ એટેન્શન (attention) પર આધારિત ન્યુરલ નેટવર્ક છે. તે ટોકન્સની એક સિક્વન્સ જુએ છે અને તેઓ એકબીજા સાથે કેવી રીતે સંબંધિત છે તે શીખે છે. આ ખૂબ જ મહત્વપૂર્ણ છે કારણ કે ભાષા સંદર્ભ (context) પર આધારિત હોય છે. કોઈ શબ્દનો અર્થ અન્ય શબ્દો સાથેના તેના સંબંધ દ્વારા જ સમજાય છે.

મુખ્ય પ્રક્રિયા:

ટોકન્સ એમ્બેડિંગ્સમાં રૂપાંતરિત થાય છે
પોઝિશનલ માહિતી ક્રમ ઉમેરે છે
સેલ્ફ-એટેન્શન સંબંધોની ગણતરી કરે છે
ફીડ-ફોરવર્ડ નેટવર્ક્સ ડેટા પ્રોસેસ કરે છે
આઉટપુટ સંદર્ભિત પ્રતિનિધિત્વ (contextual representations) ઉત્પન્ન કરે છે

સેલ્ફ-એટેન્શન (Self-Attention) એક ટોકનને પૂછવાની મંજૂરી આપે છે: મારા અર્થ માટે અન્ય કયા ટોકન્સ મહત્વના છે?

"The animal did not cross the street because it was tired" વાક્યમાં, "it" શબ્દ પ્રાણી (animal) માટે વપરાયો છે. સેલ્ફ-એટેન્શન મોડલને "it" ને "street" ને બદલે "animal" સાથે જોડવામાં મદદ કરે છે.

એટેન્શન કેવી રીતે કામ કરે છે: દરેક ટોકન ત્રણ વેક્ટર્સ બનાવે છે:

Query: આ ટોકન શું શોધે છે
Key: દરેક ટોકન શું પ્રદાન કરે છે
Value: મેળવવાની માહિતી

મલ્ટી-હેડ એટેન્શન (Multi-Head Attention) આ પ્રક્રિયાઓમાંથી ઘણી પ્રક્રિયાઓ એકસાથે ચલાવે છે. એક હેડ વ્યાકરણ (grammar) પર ધ્યાન આપી શકે છે. બીજું અર્થ પર ધ્યાન આપી શકે છે. આ મોડલને વધુ સ્માર્ટ બનાવે છે.

આર્કિટેક્ચરની ઉત્ક્રાંતિ: મૂળ ટ્રાન્સફોર્મરમાં એન્કોડર-ડીકોડર (Encoder-Decoder) સ્ટ્રક્ચરનો ઉપયોગ થતો હતો. GPT જેવા આધુનિક LLMs મોટે ભાગે માત્ર ડીકોડર-ઓન્લી (decoder-only) હોય છે. તેઓ આગામી ટોકનની આગાહી કરે છે, તેને સિક્વન્સમાં ઉમેરે છે અને આ પ્રક્રિયાનું પુનરાવર્તન કરે છે.

આધુનિક LLMs ઝડપી અને કાર્યક્ષમ રહેવા માટે અનેક અપગ્રેડ્સનો ઉપયોગ કરે છે:

RoPE: મોડલ શબ્દોના ક્રમને કેવી રીતે સમજે છે તેમાં સુધારો કરે છે
RMSNorm: નોર્મલાઇઝેશનને સરળ બનાવે છે
GQA: જનરેશન દરમિયાન મેમરી ખર્ચ ઘટાડે છે
SwiGLU: ન્યુરલ લેયર્સને મજબૂત બનાવે છે
MoE: મોટા પાયે સ્કેલ કરવા માટે સ્પાર્સ એક્સપર્ટ્સનો ઉપયોગ કરે છે

ટ્રાન્સફોર્મર્સ એક સિક્વન્સને સંબંધોના સેટમાં ફેરવીને કામ કરે છે. તેઓ સ્ટેક્ડ બ્લોક્સ દ્વારા આ સંબંધોને વધુ સચોટ બનાવે છે.

જો તમે આ શીખવા માંગતા હોવ, તો આ ક્રમ અનુસરો:

એટેન્શન મિકેનિઝમ (Attention Mechanism)
સેલ્ફ-એટેન્શન અને QKV
મલ્ટી-હેડ એટેન્શન
પોઝિશનલ એન્કોડિંગ
ડીકોડર આર્કિટેક્ચર
KV કેશ અને એફિશિયન્ટ એટેન્શન

સ્ત્રોત: https://dev.to/zeromathai/how-transformers-work-from-self-attention-to-modern-llm-architecture-4j1o

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi

𝗛𝗼𝘄 𝗧𝗿𝗮𝗻𝘀𝗳𝗼𝗿𝗺𝗲𝗿𝘀 𝗪𝗼𝗿𝗸

Continue reading

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗔𝗜 𝗜𝘀 𝗠𝗼𝗿𝗲 𝗧𝗵𝗮𝗻 𝗣𝗿𝗼𝗺𝗽𝘁𝘀

𝗛𝗼𝘄 𝗔𝗜 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗦𝗥𝗘 𝗪𝗼𝗿𝗸𝗳𝗹𝗼𝘄𝘀

𝗡𝗔𝗕𝗟𝗔: 𝗔𝗱𝗮𝗽𝘁𝗶𝘃𝗲 𝗕𝗹𝗼𝗰𝗸 𝗟𝗲𝘃𝗲𝗹 𝗔𝘁𝘁𝗲𝗻𝘁𝗶𝗼𝗻

𝗠𝗮𝗰𝗵𝗶𝗻𝗲 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴: 𝗧𝗵𝗲 𝗙𝘂𝘁𝘂𝗿𝗲 𝗼𝗳 𝗔𝗿𝘁𝗶𝗳𝗶𝗰𝗶𝗮𝗹 𝗜𝗻𝘁𝗲𝗹𝗹𝗶𝗴𝗲𝗻𝗰𝗲