ચેટબોટ બનાવવા માટે તાલીમના ત્રણ તબક્કા
માત્ર એક Transformer બનાવવું પૂરતું નથી. તમે તેમાં આખું ઇન્ટરનેટ રેડી શકો છો અને કમ્પ્યુટિંગ પાછળ લાખો ખર્ચ કરી શકો છો. તેમ છતાં, અંતે તમારી પાસે એવી મશીન હશે જે એક સાદો પ્રશ્ન પણ તેનો જવાબ આપી શકશે નહીં.
એક કાચું (raw) મોડેલ માત્ર લખાણનું અનુકરણ કરનાર છે. તે પેટર્નના આધારે આગામી શબ્દનું અનુમાન લગાવે છે. જો તમે તેને પૂછો "હું મારું રાઉટર કેવી રીતે રિસેટ કરી શકું?", તો તે "હું મારું પાસવર્ડ કેવી રીતે બદલી શકું?" જેવા વધુ પ્રશ્નો સાથે જવાબ આપી શકે છે. તેને ખબર નથી કે તમારે મદદ જોઈએ છે. તેને ફક્ત એટલું જ ખબર છે કે ઇન્ટરનેટ વાક્યને કેવી રીતે આગળ વધારે છે.
આ અનુમાન લગાવનાર (predictor) ને ચેટબોટમાં બદલવા માટે, તમારે તાલીમના ત્રણ તબક્કાની જરૂર છે.
Pretraining (એન્જિન) તમે મોડેલને ટ્રિલિયન શબ્દો બતાવો છો. તમે છેલ્લો શબ્દ છુપાવો છો અને તેને અનુમાન લગાવવા માટે કહો છો. આ જ્ઞાનનું નિર્માણ કરે છે. તે તથ્યો, વ્યાકરણ અને તર્ક શીખે છે. આ એટલા માટે કામ કરે છે કારણ કે ડેટા પોતે જ લેબલ કરે છે. સ્કેલ (Scale) તેને અનુમાનિત બનાવે છે. વધુ ડેટા અને વધુ કમ્પ્યુટિંગથી વધુ સારા પરિણામો મળે છે.
Instruction Tuning (સ્ક્રિપ્ટ) બેઝ મોડેલ બધું જ જાણે છે પરંતુ તેનો કોઈ ધ્યેય નથી. આ તબક્કામાં, તમે તેને પ્રોમ્પ્ટ અને તેની સાથેના સારા માનવીય પ્રતિસાદના થોડા હજાર ઉદાહરણો બતાવો છો. આ નવું જ્ઞાન ઉમેરતું નથી. તે મોડેલને નવું વર્તન શીખવે છે. તમે અભિનેતાને સ્ક્રિપ્ટ આપી રહ્યા છો. તે માત્ર લખાણ પૂર્ણ કરવાને બદલે એક મદદરૂપ સહાયક તરીકે કામ કરતા શીખે છે.
Preference Tuning (શિષ્ટાચાર) સ્ક્રિપ્ટ મર્યાદિત હોય છે. તમે દરેક પરિસ્થિતિ માટે નિયમ લખી શકતા નથી. આ તબક્કામાં, તમે મોડેલને બે અલગ-અલગ જવાબો બતાવો છો અને માનવીને તેમાંથી વધુ સારો જવાબ પસંદ કરવા દો છો. મોડેલ માનવીય પસંદગીના આધારે ઊંચા સ્કોર મેળવવાનું શીખે છે. આ મોડેલને તેનો લહેકો (tone), તેની નમ્રતા અને તેની સુરક્ષા મર્યાદાઓ આપે છે.
સારાંશ સરળ છે:
- Pretraining જ્ઞાનનું નિર્માણ કરે છે.
- Instruction tuning ભીડમાંથી સહાયકને અલગ તારવે છે.
- Preference tuning નિર્ણયશક્તિ અને શિષ્ટાચાર ઉમેરે છે.
તમે ચેટ વિન્ડોમાં જે વ્યક્તિત્વ જુઓ છો તે માત્ર એક કાચા શબ્દ અનુમાનકાર (word predictor) ની ઉપરનું એક પાતળું પડ છે. આ બનાવવા માટે આપણને બુદ્ધિના સિદ્ધાંતની જરૂર નહોતી. આપણને માત્ર એક સરળ ધ્યેય, સ્કેલ અને તાલીમના બે તબક્કાની જરૂર હતી.
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi
