Embeddings નો જાદુ
Embeddings ભાષાને ગણિતમાં ફેરવે છે.
તે આધુનિક AI નો પાયો છે. ઘણા લોકો તેને 'બ્લેક બોક્સ' તરીકે જુએ છે. આ પોસ્ટ સમજાવે છે કે તે કેવી રીતે કામ કરે છે.
કીવર્ડ સર્ચ ત્યારે નિષ્ફળ જાય છે જ્યારે શબ્દો મેળ ખાતા નથી.
જો તમે "How do I reset my password?" માટે સર્ચ કરો છો, તો કીવર્ડ સર્ચ તે ચોક્કસ શબ્દો શોધશે. જો કોઈ દસ્તાવેજમાં "Steps to recover your account credentials" લખ્યું હોય, તો સર્ચ નિષ્ફળ જઈ શકે છે. તમે જાણો છો કે તેનો અર્થ સમાન છે, પરંતુ કોમ્પ્યુટર નથી જાણતું.
Embeddings આ સમસ્યાનું નિરાકરણ લાવે છે.
એમ્બેડિંગ એ સંખ્યાઓની એક યાદી છે. આ સંખ્યાઓ લખાણના અર્થનું પ્રતિનિધિત્વ કરે છે. એમ્બેડિંગ મોડલ શબ્દોને હાઈ-ડાયમેન્શનલ સ્પેસ (high dimensional space) માં મેપ કરે છે.
"cat" જેવો એક શબ્દ વેક્ટર (vector) બની જાય છે:
[0.18, -0.42, 0.91, ...]
માત્ર સંખ્યાઓનો કોઈ અર્થ નથી. જે મહત્વનું છે તે વેક્ટરનું સ્થાન છે.
નકશા વિશે વિચારો. એકબીજાની નજીક આવેલા શહેરો સમાન આબોહવા અને સરહદો ધરાવે છે. Embeddings પણ આ જ રીતે કામ કરે છે. સમાન અર્થ ધરાવતું લખાણ વેક્ટર સ્પેસમાં એકબીજાની નજીક હોય છે.
- કૂતરો (Dog) અને બિલાડી (Cat) એકબીજાની નજીક હોય છે.
- કાર (Car) અને ટ્રક (Truck) એકબીજાની નજીક હોય છે.
- કાર (Car) અને કૂતરો (Dog) એકબીજાથી દૂર હોય છે.
આ બિંદુઓ વચ્ચેનું અંતર સમાનતા દર્શાવે છે.
આ સેમેન્ટિક સર્ચ (semantic search) ને શક્ય બનાવે છે. તમે સ્પેલિંગને બદલે ઈરાદા (intent) ના આધારે માહિતી શોધી શકો છો.
આ વેક્ટર્સની તુલના કરવા માટે, આપણે cosine similarity નો ઉપયોગ કરીએ છીએ. આ મેટ્રિક બે વેક્ટર્સ વચ્ચેના ખૂણાને માપે છે.
- નાનો ખૂણો એટલે વધુ સમાનતા.
- મોટો ખૂણો એટલે ઓછી સમાનતા.
Embeddings Retrieval Augmented Generation (RAG) ને પણ શક્તિ આપે છે. RAG પાઇપલાઇનમાં, પ્રક્રિયા આ મુજબ હોય છે:
- એમ્બેડિંગ મોડલનો ઉપયોગ કરીને દસ્તાવેજોને વેક્ટરમાં રૂપાંતરિત કરો.
- વેક્ટર્સને વેક્ટર ડેટાબેઝમાં સ્ટોર કરો.
- યુઝર ક્વેરીને વેક્ટરમાં રૂપાંતરિત કરો.
- ડેટાબેઝમાં સૌથી નજીકના વેક્ટર્સ શોધો.
- સંબંધિત દસ્તાવેજો LLM ને મોકલો.
LLM તમારી ફાઇલોમાં સીધું સર્ચ નથી કરતું. તે સૌથી નજીકના મેચ માટે એમ્બેડિંગ સ્પેસમાં શોધ કરે છે.
જો તમે AI એપ્લિકેશન્સ બનાવો છો, તો તમારે Embeddings સમજવા જ જોઈએ. તે સર્ચ એન્જિનથી લઈને રેકમેન્ડેશન સિસ્ટમ સુધી બધું જ ચલાવે છે. તેમની તાકાત અર્થને કેવી રીતે વ્યવસ્થિત કરવામાં આવે છે તેમાં રહેલી છે.
Source: https://dev.to/tahaboussaden/embeddings-magic-2hlb
Optional learning community: https://t.me/GyaanSetuAi
