ક્લાઉડ ટાસ્ક માટે નવું બેન્ચમાર્ક
AI ની કામગીરી અસમાન છે. એક મોડેલ કોડિંગ બેન્ચમાર્કમાં ટોચ પર હોઈ શકે છે પરંતુ ક્લાઉડના કામમાં નિષ્ફળ જઈ શકે છે. તે ઘણીવાર એવા રિસોર્સિસ બનાવે છે જે અસ્તિત્વમાં નથી.
વર્તમાન બેન્ચમાર્ક કોડિંગ અને રીઝનિંગને આવરી લે છે. ક્લાઉડ મેનેજમેન્ટ ટાસ્ક માટે કોઈ બેન્ચમાર્ક અસ્તિત્વમાં નથી.
અમે તે બેન્ચમાર્ક બનાવી રહ્યા છીએ.
અમે Codex અને Claude Code જેવા ટૂલ્સનું પરીક્ષણ કરીએ છીએ. અમારું પ્રથમ પરીક્ષણ AWS પર ચાલે છે. અમે એવા ટેમ્પલેટનો ઉપયોગ કરીએ છીએ જે પછીથી Azure અને GCP માટે પણ કામ લાગશે.
અમારી પદ્ધતિ
અમે Infrastructure as Code (IaC) ને એન્સર કી તરીકે ઉપયોગ કરીએ છીએ. Terraform રિસોર્સિસ બનાવે છે. તેનું આઉટપુટ સત્ય પ્રદાન કરે છે. જે રિસોર્સ આઈડી (resource IDs) અસ્તિત્વમાં હોવા જોઈએ તે અમને ચોક્કસપણે ખબર હોય છે. આ માનવીય ભૂલને દૂર કરે છે. કોઈપણ સમાન પરિણામ મેળવવા માટે સમાન સ્ટેક (stack) ચલાવી શકે છે.
અમે બે વેરિયેબલ્સનું પરીક્ષણ કરીએ છીએ:
• Size: નાના એકાઉન્ટ્સ, મધ્યમ એકાઉન્ટ્સ, અને હજારો ડિપેન્ડન્સીઝ ધરાવતા મોટા એકાઉન્ટ્સ. • History: શુદ્ધ IaC ધરાવતા નવા એકાઉન્ટ્સ અને અસ્તવ્યસ્ત ટેગ્સ તથા મેન્યુઅલ ફેરફારો ધરાવતા જૂના એકાઉન્ટ્સ.
એવું ટૂલ જે ફક્ત નાના અને સ્વચ્છ એકાઉન્ટ્સ પર જ કામ કરે છે તે વાસ્તવિક પ્રોડક્શન એન્વાયરમેન્ટમાં નિષ્ફળ જાય છે.
અમે એજન્ટને નિયંત્રિત રાખીએ છીએ. તે રીડ-ઓન્લી (read-only) ક્રેડેન્શિયલ્સ સાથે સિંગલ કન્ટેનરમાં ચાલે છે. અમે દરેક એક્શનને ટ્રેક કરવા માટે CloudTrail નો ઉપયોગ કરીએ છીએ. નેટવર્ક એરરને નકારી કાઢવા માટે અમે દરેક ટેસ્ટ ત્રણ વાર રિપીટ કરીએ છીએ.
અમે દરેક ખોટા જવાબનું વર્ગીકરણ કરીએ છીએ:
- Found: એજન્ટે રિસોર્સ જોયું.
- Missed: એજન્ટ તેને જોવા માટે નિષ્ફળ રહ્યો.
- Flagged: એજન્ટે એવા રિસોર્સ વિશે રિપોર્ટ કર્યો જે વાસ્તવમાં વપરાશમાં છે.
- Fabricated: એજન્ટે એવું રિસોર્સ આઈડી બનાવ્યું જે અસ્તિત્વમાં નથી.
અમારું પ્રથમ કાર્ય AWS વેસ્ટ ડિસ્કવરી (waste discovery) પર ધ્યાન કેન્દ્રિત કરે છે. અમે અનએટેચ્ડ (unattached) વોલ્યુમ્સ અને બિનઉપયોગી IPs રોપવા માટે Terraform નો ઉપયોગ કરીએ છીએ. અમે એજન્ટ ભૂલો કરે છે કે નહીં તે જોવા માટે એક્ટિવ રિસોર્સિસ પણ ઉમેરીએ છીએ.
વેસ્ટ ડિસ્કવરી એ પ્રથમ પરીક્ષણ છે કારણ કે તે પૈસા બચાવે છે અને તેના સ્કોર સ્પષ્ટ હોય છે. ભવિષ્યના પરીક્ષણોમાં સિક્યુરિટી ઓડિટ અને આર્કિટેક્ચર રિકન્સ્ટ્રક્શનનો સમાવેશ થશે.
અમે રો (raw) લોગ્સ અને પ્રોમ્પ્ટ્સ સહિત અમારી સંપૂર્ણ પ્રક્રિયા પ્રકાશિત કરીશું. જો પરિણામો ખરાબ હશે તો પણ અમે તે શેર કરીશું.
અમને તમારા પ્રતિસાદની જરૂર છે.
આ પદ્ધતિ ક્યાં નબળી છે? કઈ બાબત ટેસ્ટને વાસ્તવિક એકાઉન્ટ જેવો અનુભવ કરાવે છે? અમારે હવે પછી કયા કાર્યનું પરીક્ષણ કરવું જોઈએ?
સ્ત્રોત: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi
