మూడు రౌండ్ల శిక్షణతో ఒక చాట్బాట్ను తయారు చేయడం
కేవలం ఒక Transformerను నిర్మించడం సరిపోదు. మీరు అందులోకి మొత్తం ఇంటర్నెట్ను నింపవచ్చు మరియు కంప్యూటింగ్ కోసం మిలియన్ల కొద్దీ ఖర్చు చేయవచ్చు. అయినప్పటికీ, అది ఒక సాధారణ ప్రశ్నకూ సమాధానం చెప్పలేని యంత్రంగానే మిగిలిపోతుంది.
ఒక ముడి మోడల్ (raw model) కేవలం టెక్స్ట్ను అనుకరించేది మాత్రమే. ఇది నమూనాల (patterns) ఆధారంగా తదుపరి పదాన్ని అంచనా వేస్తుంది. మీరు "నేను నా రూటర్ను ఎలా రీసెట్ చేయాలి?" అని అడిగితే, అది "నేను నా పాస్వర్డ్ను ఎలా మార్చుకోవాలి?" వంటి మరిన్ని ప్రశ్నలతో సమాధానం ఇవ్వవచ్చు. మీకు సహాయం కావాలని దానికి తెలియదు. ఇంటర్నెట్లో ఒక వాక్యం ఎలా కొనసాగుతుందో దానికి మాత్రమే తెలుసు.
ఈ ప్రిడిటర్ను (predictor) చాట్బాట్గా మార్చడానికి, మీకు మూడు రౌండ్ల శిక్షణ అవసరం.
Pretraining (ఇంజిన్) మీరు మోడల్కు ట్రిలియన్ల కొద్దీ పదాలను చూపిస్తారు. మీరు చివరి పదాన్ని దాచిపెట్టి, దానిని ఊహించమని చెబుతారు. ఇది జ్ఞానాన్ని నిర్మిస్తుంది. ఇది వాస్తవాలు, వ్యాకరణం మరియు తర్కాన్ని నేర్చుకుంటుంది. డేటా స్వయంగా లేబుల్ చేయబడటం వల్ల ఇది సాధ్యమవుతుంది. స్కేల్ (Scale) దీనిని ఊహించదగినదిగా చేస్తుంది. ఎక్కువ డేటా మరియు ఎక్కువ కంప్యూటింగ్ మెరుగైన ఫలితాలకు దారితీస్తాయి.
Instruction Tuning (స్క్రిప్ట్) బేస్ మోడల్కు అంతా తెలుసు కానీ దానికి ఒక లక్ష్యం ఉండదు. ఈ రౌండ్లో, మీరు దానికి ఒక ప్రాంప్ట్ (prompt) మరియు దానికి తగిన మానవ ప్రతిస్పందన కలిగిన కొన్ని వేల ఉదాహరణలను చూపిస్తారు. ఇది కొత్త జ్ఞానాన్ని జోడించదు. ఇది మోడల్కు కొత్త ప్రవర్తనను నేర్పిస్తుంది. మీరు ఒక నటుడికి స్క్రిప్ట్ను అందిస్తున్నట్లు అన్నమాట. ఇది కేవలం టెక్స్ట్ను పూర్తి చేసే సాధనంగా కాకుండా, ఒక సహాయకారి అయిన అసిస్టెంట్లా వ్యవహరించడం నేర్చుకుంటుంది.
Preference Tuning (మర్యాదలు) స్క్రిప్ట్లు పరిమితమైనవి. ప్రతి పరిస్థితికి మీరు ఒక నియమాన్ని రాయలేరు. ఈ రౌండ్లో, మీరు మోడల్కు రెండు వేర్వేరు సమాధానాలను చూపిస్తారు మరియు వాటిలో ఏది మెరుగైనదో ఎంచుకోవడానికి ఒక మనిషికి అవకాశం ఇస్తారు. మానవ అభిరుచి ఆధారంగా ఎక్కువ స్కోరు సాధించడం ఎలాగో మోడల్ నేర్చుకుంటుంది. ఇది మోడల్కు దాని స్వరం (tone), మర్యాద మరియు భద్రతా పరిమితులను అందిస్తుంది.
సారాంశం సరళంగా ఉంది:
- Pretraining జ్ఞానాన్ని నిర్మిస్తుంది.
- Instruction tuning జనసమూహంలో నుండి ఒక అసిస్టెంట్ను ఎంపిక చేస్తుంది.
- Preference tuning విచక్షణ మరియు మర్యాదలను జోడిస్తుంది.
చాట్ విండోలో మీరు చూసే వ్యక్తిత్వం అనేది కేవలం ఒక ముడి వర్డ్ ప్రిడిక్టర్ (raw word predictor) పైన ఉన్న ఒక సన్నని పొర మాత్రమే. దీనిని నిర్మించడానికి మనకు మేధస్సు యొక్క సిద్ధాంతం (theory of intelligence) అవసరం లేదు. మనకు ఒక సరళమైన లక్ష్యం, స్కేల్ మరియు రెండు రౌండ్ల కోచింగ్ మాత్రమే అవసరమయ్యాయి.
ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi
