ક્લાઉડ કાર્યો માટે નવો બેન્ચમાર્ક

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial22 કલાક પહેલાં2min read

ક્લાઉડ ટાસ્ક માટે નવું બેન્ચમાર્ક

AI ની કામગીરી અસમાન છે. એક મોડેલ કોડિંગ બેન્ચમાર્કમાં ટોચ પર હોઈ શકે છે પરંતુ ક્લાઉડના કામમાં નિષ્ફળ જઈ શકે છે. તે ઘણીવાર એવા રિસોર્સિસ બનાવે છે જે અસ્તિત્વમાં નથી.

વર્તમાન બેન્ચમાર્ક કોડિંગ અને રીઝનિંગને આવરી લે છે. ક્લાઉડ મેનેજમેન્ટ ટાસ્ક માટે કોઈ બેન્ચમાર્ક અસ્તિત્વમાં નથી.

અમે તે બેન્ચમાર્ક બનાવી રહ્યા છીએ.

અમે Codex અને Claude Code જેવા ટૂલ્સનું પરીક્ષણ કરીએ છીએ. અમારું પ્રથમ પરીક્ષણ AWS પર ચાલે છે. અમે એવા ટેમ્પલેટનો ઉપયોગ કરીએ છીએ જે પછીથી Azure અને GCP માટે પણ કામ લાગશે.

અમારી પદ્ધતિ

અમે Infrastructure as Code (IaC) ને એન્સર કી તરીકે ઉપયોગ કરીએ છીએ. Terraform રિસોર્સિસ બનાવે છે. તેનું આઉટપુટ સત્ય પ્રદાન કરે છે. જે રિસોર્સ આઈડી (resource IDs) અસ્તિત્વમાં હોવા જોઈએ તે અમને ચોક્કસપણે ખબર હોય છે. આ માનવીય ભૂલને દૂર કરે છે. કોઈપણ સમાન પરિણામ મેળવવા માટે સમાન સ્ટેક (stack) ચલાવી શકે છે.

અમે બે વેરિયેબલ્સનું પરીક્ષણ કરીએ છીએ:

• Size: નાના એકાઉન્ટ્સ, મધ્યમ એકાઉન્ટ્સ, અને હજારો ડિપેન્ડન્સીઝ ધરાવતા મોટા એકાઉન્ટ્સ. • History: શુદ્ધ IaC ધરાવતા નવા એકાઉન્ટ્સ અને અસ્તવ્યસ્ત ટેગ્સ તથા મેન્યુઅલ ફેરફારો ધરાવતા જૂના એકાઉન્ટ્સ.

એવું ટૂલ જે ફક્ત નાના અને સ્વચ્છ એકાઉન્ટ્સ પર જ કામ કરે છે તે વાસ્તવિક પ્રોડક્શન એન્વાયરમેન્ટમાં નિષ્ફળ જાય છે.

અમે એજન્ટને નિયંત્રિત રાખીએ છીએ. તે રીડ-ઓન્લી (read-only) ક્રેડેન્શિયલ્સ સાથે સિંગલ કન્ટેનરમાં ચાલે છે. અમે દરેક એક્શનને ટ્રેક કરવા માટે CloudTrail નો ઉપયોગ કરીએ છીએ. નેટવર્ક એરરને નકારી કાઢવા માટે અમે દરેક ટેસ્ટ ત્રણ વાર રિપીટ કરીએ છીએ.

અમે દરેક ખોટા જવાબનું વર્ગીકરણ કરીએ છીએ:

Found: એજન્ટે રિસોર્સ જોયું.
Missed: એજન્ટ તેને જોવા માટે નિષ્ફળ રહ્યો.
Flagged: એજન્ટે એવા રિસોર્સ વિશે રિપોર્ટ કર્યો જે વાસ્તવમાં વપરાશમાં છે.
Fabricated: એજન્ટે એવું રિસોર્સ આઈડી બનાવ્યું જે અસ્તિત્વમાં નથી.

અમારું પ્રથમ કાર્ય AWS વેસ્ટ ડિસ્કવરી (waste discovery) પર ધ્યાન કેન્દ્રિત કરે છે. અમે અનએટેચ્ડ (unattached) વોલ્યુમ્સ અને બિનઉપયોગી IPs રોપવા માટે Terraform નો ઉપયોગ કરીએ છીએ. અમે એજન્ટ ભૂલો કરે છે કે નહીં તે જોવા માટે એક્ટિવ રિસોર્સિસ પણ ઉમેરીએ છીએ.

વેસ્ટ ડિસ્કવરી એ પ્રથમ પરીક્ષણ છે કારણ કે તે પૈસા બચાવે છે અને તેના સ્કોર સ્પષ્ટ હોય છે. ભવિષ્યના પરીક્ષણોમાં સિક્યુરિટી ઓડિટ અને આર્કિટેક્ચર રિકન્સ્ટ્રક્શનનો સમાવેશ થશે.

અમે રો (raw) લોગ્સ અને પ્રોમ્પ્ટ્સ સહિત અમારી સંપૂર્ણ પ્રક્રિયા પ્રકાશિત કરીશું. જો પરિણામો ખરાબ હશે તો પણ અમે તે શેર કરીશું.

અમને તમારા પ્રતિસાદની જરૂર છે.

આ પદ્ધતિ ક્યાં નબળી છે? કઈ બાબત ટેસ્ટને વાસ્તવિક એકાઉન્ટ જેવો અનુભવ કરાવે છે? અમારે હવે પછી કયા કાર્યનું પરીક્ષણ કરવું જોઈએ?

સ્ત્રોત: https://dev.to/rachcorp/new-benchmark-for-cloud-tasks-4o1

વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi

ક્લાઉડ કાર્યો માટે નવો બેન્ચમાર્ક

Continue reading

નવું AA બ્રીફકેસ બેન્ચમાર્ક વાસ્તવિક જ્ઞાનલક્ષી કાર્યમાં AI ના સંઘર્ષને દર્શાવે છે

AWS Launches New Services to Solve AI Agent Security and Context Gaps

વેબ ડેટા ઈન્ફ્રાસ્ટ્રક્ચરનો ઉદય: AI ની જ્ઞાનની અવરોધક સમસ્યાનું નિરાકરણ

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities