એમ્બેડિંગ્સ (Embeddings) સરળ રીતે સમજાવ્યા
કોમ્પ્યુટરને સંખ્યાઓ ગમે છે. તેમને અર્થ (meaning) થી નફરત છે.
કોમ્પ્યુટર માટે, "happy" અને "joyful" શબ્દો માત્ર અલગ-અલગ અક્ષરો છે. તેઓ જાણતા નથી કે આ શબ્દો એક સમાન લાગણી ધરાવે છે.
એમ્બેડિંગ્સ આ સમસ્યાનો ઉકેલ લાવે છે. તેઓ શબ્દોને સંખ્યાઓની યાદીમાં ફેરવે છે. આ સંખ્યાઓ અર્થ માટે GPS કોઓર્ડિનેટ્સ (coordinates) જેવું કામ કરે છે.
જ્યારે તમે શબ્દોને સંખ્યાઓમાં ફેરવો છો, ત્યારે સમાન શબ્દો ડિજિટલ નકશામાં એકબીજાની નજીક આવે છે.
- "Dog" અને "puppy" ના કોઓર્ડિનેટ્સ નજીક છે.
- "Dog" અને "democracy" ના કોઓર્ડિનેટ્સ એકબીજાથી દૂર છે.
વેક્ટર (vector) એ માત્ર સંખ્યાઓની એક ક્રમબદ્ધ યાદી છે. "king" → [0.21, -0.44, 0.88] "queen" → [0.19, -0.41, 0.85]
વાસ્તવિક મોડલ્સ એક શબ્દ માટે આમાંથી હજારો સંખ્યાઓનો ઉપયોગ કરે છે. તમારે તે બધી જોવાની જરૂર નથી. તમારે ફક્ત એટલું જાણવાની જરૂર છે કે બે બિંદુઓ કેટલા નજીક છે.
આ નિકટતા માપવા માટે આપણે cosine similarity નો ઉપયોગ કરીએ છીએ.
- એક જ દિશામાં આવેલા બિંદુઓ = ખૂબ જ સંબંધિત.
- કાટખૂણે આવેલા બિંદુઓ = અસંબંધિત.
આ અર્થને ભૂમિતિ (geometry) માં ફેરવે છે. તમે શબ્દો સાથે ગણિત પણ કરી શકો છો.
જો તમે "king" માટેનું વેક્ટર લો, તેમાંથી "man" બાદ કરો અને "woman" ઉમેરો, તો તમે "queen" ની નજીક પહોંચશો. મોડલ અબજો વાક્યો વાંચીને આ પેટર્ન શીખે છે.
આ ગણિત એ AI સાધનોને શક્તિ આપે છે જે તમે દરરોજ ઉપયોગ કરો છો:
- Semantic search: ચોક્કસ કીવર્ડ્સને બદલે અર્થ દ્વારા પરિણામો શોધવા.
- Recommendations: સમાન વેક્ટર્સના આધારે ઉત્પાદનો અથવા ગીતો સૂચવવા.
- RAG: પ્રશ્નોના જવાબ આપવા માટે તમારા દસ્તાવેજોમાં તથ્યો શોધવામાં AI ને મદદ કરવી.
- Clustering: સમાન વસ્તુઓને આપમેળે એકસાથે જૂથબદ્ધ કરવી.
તમે આ સંખ્યાઓની જાતે ગણતરી કરતા નથી. તમે મોડલને ટેક્સ્ટ મોકલો છો અને તે વેક્ટર પરત કરે છે. પછી તમે આ વેક્ટર્સને સર્ચ કરવા માટે વેક્ટર ડેટાબેઝમાં સ્ટોર કરો છો.
એમ્બેડિંગ્સ ભાષાના રહસ્યને ભૂમિતિના તર્ક (logic) માં ફેરવે છે.
શબ્દો કેવી રીતે જોડાયેલા છે તે જોવા માટે Meaning Map અજમાવો: https://dev48v.infy.uk/ai/days/day3-embeddings.html
તમામ ખ્યાલો: https://dev48v.infy.uk/aifromzero.php
સ્ત્રોત: https://dev.to/dev48v/embeddings-explained-simply-how-ai-turns-words-into-a-map-of-meaning-36f4