నేను ప్రతి రాత్రి నా ఏజెంట్పై ఒక సెల్ఫ్-ఇంప్రూవ్మెంట్ లూప్ను (Self-Improvement Loop) నడుపుతాను
నా AI ఏజెంట్ పదేపదే ఒకే తప్పులు చేసేది. అది ఒక పనిని చేసేటప్పుడు, ఎటువంటి సమాచారం ఇవ్వకుండా విఫలమై, ఆ తర్వాత అంతా సవ్యంగానే జరిగినట్లు నివేదించేది. అది పాడైపోలేదు, కానీ తన తప్పుల నుండి నేర్చుకునే మార్గం దానికి లేదు.
దీనిని సరిచేయడానికి నేను ఒక సెల్ఫ్-ఇంప్రూవ్మెంట్ లూప్ను రూపొందించాను.
ప్రతి రాత్రి 2 గంటలకు, ఒక ప్రత్యేక సెషన్ (isolated session) ప్రారంభమవుతుంది. అది గత 24 గంటల లాగ్లను (logs) చదువుతుంది. ఎక్కడ తప్పులు జరిగాయో వాటిలోని నమూనాలను (patterns) గుర్తిస్తుంది. ఆ తర్వాత, ఏజెంట్ మెమరీ ఫైళ్లను అప్డేట్ చేస్తుంది. ఇందులో మనుషుల ప్రమేయం ఏమీ ఉండదు.
ఇది ఎలా పనిచేస్తుందంటే:
- ఎగ్జిక్యూటర్ను (executor) క్రిటిక్తో (critic) వేరు చేయండి. ప్రధాన ఏజెంట్ పనులను నిర్వహిస్తుంది. ఒక ప్రత్యేక సెషన్ ఆ పనిని సమీక్షిస్తుంది. ఒకే సెషన్ తీర్పునిచ్చే వ్యక్తిగా (judge) మరియు అమలు చేసే వ్యక్తిగా (executioner) ఉండలేరు.
- సరళమైన ఫైళ్లను ఉపయోగించండి. మెమరీ మరియు సవరణల కోసం నేను ప్లెయిన్ టెక్స్ట్ ఫైళ్లను ఉపయోగిస్తాను. ఇది సిస్టమ్ను తేలికగా (lightweight) ఉంచుతుంది.
- స్పష్టతను తప్పనిసరి చేయండి (Force specificity). నేను ఏజెంట్ను కేవలం మెరుగుపడమని అడగను. బదులుగా, నమూనాలను కనుగొనమని, ఆధారాలను చూపమని మరియు ఒక ఖచ్చితమైన పరిష్కారాన్ని సూచించమని అడుగుతాను.
దీనిని నిర్వహించడానికి నేను మూడు ప్రత్యేక ఫైళ్లను ఉపయోగిస్తాను:
- డైలీ లాగ్స్ (Daily logs): జరిగిన ప్రతి అంశం యొక్క ముడి రికార్డు.
- సంగ్రహించిన పాఠాలు (Accumulated lessons): ప్రతి సెషన్ ప్రారంభంలో ఏజెంట్ చదివే అత్యంత కీలకమైన నియమాలు (High-signal rules).
- సవరణలు (Corrections): ఇటీవలి పరిష్కారాల కోసం ఒక చోటు. ఒకవేళ రెండు వారాల్లో ఒక తప్పు మూడుసార్లు జరిగితే, అది శాశ్వత పాఠాల ఫైల్కు మారుతుంది.
ఫలితాలు వెంటనే రాలేదు. మొదటి మూడు వారాల వరకు, గమనించిన అంశాలు చాలా స్పష్టంగా ఉండేవి. నాలుగో వారం నాటికి, ఏజెంట్ లోతైన సమస్యలను కనుగొంది. నేను గమనించని టైమింగ్ లోపాలను (timing errors) మరియు ఎర్రర్ మెసేజ్లలోని దాగి ఉన్న నమూనాలను అది గుర్తించింది.
దీని వల్ల కలిగే అతిపెద్ద ప్రయోజనం స్థిరత్వం (stability). నేను ఒక సమస్యను పరిష్కరించిన తర్వాత అది మళ్ళీ వస్తే, నా పరిష్కారం తప్పు అని నాకు తెలుస్తుంది. ఒక పరిష్కారం నిజంగా పనిచేస్తుందో లేదో ఈ సిస్టమ్ ట్రాక్ చేస్తుంది.
ఈ సిస్టమ్కు పరిమితులు ఉన్నాయి. ఇది లాగ్లలో వైఫల్యాలను చూడగలదు, కానీ నేను గుర్తించనంత వరకు అది నిర్ణయాల్లోని తప్పులను (errors in judgment) చూడలేదు. సరైన కారణాల వల్ల తప్పు పనులు చేసినప్పుడు కూడా నేను దానికి చెప్పాల్సి ఉంటుంది.
ఈ సెటప్ కేవలం 50 లైన్ల కాన్ఫిగరేషన్తో (config) పనిచేస్తుంది మరియు రెండు నిమిషాల కంటే తక్కువ సమయంలో పూర్తవుతుంది. ఇది ప్రతిరోజూ నా ఏజెంట్ను కొంచెం మెరుగుపరుస్తుంది.
Optional learning community: https://t.me/GyaanSetuAi