𝗘𝗺𝗯𝗲𝗱𝗱𝗶𝗻𝗴𝘀 எளிமையான விளக்கம்
கணினிகளுக்கு எண்கள் பிடிக்கும். அவற்றுக்கு அர்த்தம் தெரியாது.
ஒரு கணினிக்கு, "happy" மற்றும் "joyful" ஆகிய சொற்கள் வெறும் வெவ்வேறு எழுத்துக்கள் மட்டுமே. இந்தச் சொற்கள் ஒரே உணர்வைப் பகிர்ந்து கொள்கின்றன என்பது அவற்றுக்குத் தெரியாது.
Embeddings இந்தப் பிரச்சனையைத் தீர்க்கின்றன. அவை சொற்களை எண்களின் பட்டியல்களாக மாற்றுகின்றன. இந்த எண்கள் அர்த்தத்திற்கான GPS ஆயத்தொலைவுகள் (coordinates) போலச் செயல்படுகின்றன.
நீங்கள் சொற்களை எண்களாக மாற்றும்போது, ஒத்த சொற்கள் ஒரு டிஜிட்டல் வரைபடத்தில் அருகருகே அமைகின்றன.
- "Dog" மற்றும் "puppy" ஆகியவற்றிற்கு அருகாமையில் உள்ள ஆயத்தொலைவுகள் உள்ளன.
- "Dog" மற்றும் "democracy" ஆகியவற்றிற்கு வெகு தொலைவில் உள்ள ஆயத்தொலைவுகள் உள்ளன.
A vector என்பது எண்களின் வரிசைப்படுத்தப்பட்ட பட்டியல் மட்டுமே. "king" → [0.21, -0.44, 0.88] "queen" → [0.19, -0.41, 0.85]
நிஜமான மாதிரிகள் (models) ஒரு சொல்லுக்காக ஆயிரக்கணக்கான இத்தகைய எண்களைப் பயன்படுத்துகின்றன. நீங்கள் அவை அனைத்தையும் பார்க்க வேண்டிய அவசியமில்லை. இரண்டு புள்ளிகள் எவ்வளவு நெருக்கமாக உள்ளன என்பதை மட்டும் நீங்கள் தெரிந்து கொண்டால் போதும்.
இந்த நெருக்கத்தை அளவிட நாம் cosine similarity-ஐப் பயன்படுத்துகிறோம்.
- ஒரே திசையில் உள்ள புள்ளிகள் = அதிகத் தொடர்புடையவை.
- செங்கோணத்தில் உள்ள புள்ளிகள் = தொடர்பற்றவை.
இது அர்த்தத்தை வடிவியலாக (geometry) மாற்றுகிறது. நீங்கள் சொற்களைக் கொண்டு கணிதத்தைக் கூடச் செய்ய முடியும்.
நீங்கள் "king"-ன் vector-ஐ எடுத்து, அதிலிருந்து "man"-ஐக் கழித்து, "woman"-ஐக் கூட்டினால், நீங்கள் "queen"-க்கு அருகில் வந்துவிடுவீர்கள். பில்லியன் கணக்கான வாக்கியங்களைப் படிப்பதன் மூலம் மாதிரி (model) இந்த முறைகளைக் கற்றுக்கொள்கிறது.
நீங்கள் தினமும் பயன்படுத்தும் AI கருவிகளுக்கு இந்த கணிதமே சக்தியாக உள்ளது:
- Semantic search: துல்லியமான முக்கியச் சொற்களுக்குப் பதிலாக, அர்த்தத்தின் அடிப்படையில் முடிவுகளைக் கண்டறிதல்.
- Recommendations: ஒத்த vectors-ன் அடிப்படையில் தயாரிப்புகள் அல்லது பாடல்களைப் பரிந்துரைத்தல்.
- RAG: கேள்விகளுக்குப் பதிலளிக்க உங்கள் ஆவணங்களில் உள்ள உண்மைகளைக் கண்டறிய AI-க்கு உதவுதல்.
- Clustering: ஒத்த பொருட்களைத் தானாகவே ஒன்றாகக் குழுவாக்குதல்.
நீங்கள் இந்த எண்களை நீங்களாகவே கணக்கிடத் தேவையில்லை. நீங்கள் ஒரு உரையை ஒரு மாதிரிக்கு (model) அனுப்புகிறீர்கள், அது அந்த vector-ஐத் திருப்பித் தருகிறது. பின்னர் நீங்கள் இந்த vectors-களைத் தேடுவதற்கு ஒரு vector database-இல் சேமிக்கிறீர்கள்.
Embeddings மொழியின் மர்மத்தை வடிவியலின் தர்க்கமாக மாற்றுகின்றன.
சொற்கள் எவ்வாறு இணைகின்றன என்பதைப் பார்க்க Meaning Map-ஐ முயற்சிக்கவும்: https://dev48v.infy.uk/ai/days/day3-embeddings.html
அனைத்து கருத்துக்களும்: https://dev48v.infy.uk/aifromzero.php
Source: https://dev.to/dev48v/embeddings-explained-simply-how-ai-turns-words-into-a-map-of-meaning-36f4