మూడు రౌండ్ల శిక్షణతో ఒక చాట్‌బాట్‌ను తయారు చేయడం

కేవలం ఒక Transformerను నిర్మించడం సరిపోదు. మీరు అందులోకి మొత్తం ఇంటర్నెట్‌ను నింపవచ్చు మరియు కంప్యూటింగ్ కోసం మిలియన్ల కొద్దీ ఖర్చు చేయవచ్చు. అయినప్పటికీ, అది ఒక సాధారణ ప్రశ్నకూ సమాధానం చెప్పలేని యంత్రంగానే మిగిలిపోతుంది.

ఒక ముడి మోడల్ (raw model) కేవలం టెక్స్ట్‌ను అనుకరించేది మాత్రమే. ఇది నమూనాల (patterns) ఆధారంగా తదుపరి పదాన్ని అంచనా వేస్తుంది. మీరు "నేను నా రూటర్‌ను ఎలా రీసెట్ చేయాలి?" అని అడిగితే, అది "నేను నా పాస్‌వర్డ్‌ను ఎలా మార్చుకోవాలి?" వంటి మరిన్ని ప్రశ్నలతో సమాధానం ఇవ్వవచ్చు. మీకు సహాయం కావాలని దానికి తెలియదు. ఇంటర్నెట్‌లో ఒక వాక్యం ఎలా కొనసాగుతుందో దానికి మాత్రమే తెలుసు.

ఈ ప్రిడిటర్‌ను (predictor) చాట్‌బాట్‌గా మార్చడానికి, మీకు మూడు రౌండ్ల శిక్షణ అవసరం.

  1. Pretraining (ఇంజిన్) మీరు మోడల్‌కు ట్రిలియన్ల కొద్దీ పదాలను చూపిస్తారు. మీరు చివరి పదాన్ని దాచిపెట్టి, దానిని ఊహించమని చెబుతారు. ఇది జ్ఞానాన్ని నిర్మిస్తుంది. ఇది వాస్తవాలు, వ్యాకరణం మరియు తర్కాన్ని నేర్చుకుంటుంది. డేటా స్వయంగా లేబుల్ చేయబడటం వల్ల ఇది సాధ్యమవుతుంది. స్కేల్ (Scale) దీనిని ఊహించదగినదిగా చేస్తుంది. ఎక్కువ డేటా మరియు ఎక్కువ కంప్యూటింగ్ మెరుగైన ఫలితాలకు దారితీస్తాయి.

  2. Instruction Tuning (స్క్రిప్ట్) బేస్ మోడల్‌కు అంతా తెలుసు కానీ దానికి ఒక లక్ష్యం ఉండదు. ఈ రౌండ్‌లో, మీరు దానికి ఒక ప్రాంప్ట్ (prompt) మరియు దానికి తగిన మానవ ప్రతిస్పందన కలిగిన కొన్ని వేల ఉదాహరణలను చూపిస్తారు. ఇది కొత్త జ్ఞానాన్ని జోడించదు. ఇది మోడల్‌కు కొత్త ప్రవర్తనను నేర్పిస్తుంది. మీరు ఒక నటుడికి స్క్రిప్ట్‌ను అందిస్తున్నట్లు అన్నమాట. ఇది కేవలం టెక్స్ట్‌ను పూర్తి చేసే సాధనంగా కాకుండా, ఒక సహాయకారి అయిన అసిస్టెంట్‌లా వ్యవహరించడం నేర్చుకుంటుంది.

  3. Preference Tuning (మర్యాదలు) స్క్రిప్ట్‌లు పరిమితమైనవి. ప్రతి పరిస్థితికి మీరు ఒక నియమాన్ని రాయలేరు. ఈ రౌండ్‌లో, మీరు మోడల్‌కు రెండు వేర్వేరు సమాధానాలను చూపిస్తారు మరియు వాటిలో ఏది మెరుగైనదో ఎంచుకోవడానికి ఒక మనిషికి అవకాశం ఇస్తారు. మానవ అభిరుచి ఆధారంగా ఎక్కువ స్కోరు సాధించడం ఎలాగో మోడల్ నేర్చుకుంటుంది. ఇది మోడల్‌కు దాని స్వరం (tone), మర్యాద మరియు భద్రతా పరిమితులను అందిస్తుంది.

సారాంశం సరళంగా ఉంది:

  • Pretraining జ్ఞానాన్ని నిర్మిస్తుంది.
  • Instruction tuning జనసమూహంలో నుండి ఒక అసిస్టెంట్‌ను ఎంపిక చేస్తుంది.
  • Preference tuning విచక్షణ మరియు మర్యాదలను జోడిస్తుంది.

చాట్ విండోలో మీరు చూసే వ్యక్తిత్వం అనేది కేవలం ఒక ముడి వర్డ్ ప్రిడిక్టర్ (raw word predictor) పైన ఉన్న ఒక సన్నని పొర మాత్రమే. దీనిని నిర్మించడానికి మనకు మేధస్సు యొక్క సిద్ధాంతం (theory of intelligence) అవసరం లేదు. మనకు ఒక సరళమైన లక్ష్యం, స్కేల్ మరియు రెండు రౌండ్ల కోచింగ్ మాత్రమే అవసరమయ్యాయి.

మూలం: https://dev.to/karthi_raman_02ec8161bda0/three-rounds-of-training-turn-a-word-predictor-into-a-chatbot-none-of-them-are-magic-395i

ఐచ్ఛిక అభ్యాస సమూహం: https://t.me/GyaanSetuAi