𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

📅3 hours ago⏱1 min read

೨೦೨೬ರಲ್ಲಿ ಕೋಡಿಂಗ್‌ಗಾಗಿ LLMಗಳನ್ನು ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮಾಡುವುದು

ನಿಮ್ಮ ಕೋಡಿಂಗ್ ಅಸಿಸ್ಟೆಂಟ್ ಕೆಲಸ ಮಾಡುತ್ತಿದೆಯೇ ಎಂದು ಊಹಿಸುವುದನ್ನು ನಿಲ್ಲಿಸಿ. ಔಟ್‌ಪುಟ್‌ಗಳನ್ನು ಕೇವಲ ನೋಡುವುದು ಒಂದು ಕಾರ್ಯತಂತ್ರವಲ್ಲ. ನೈಜ ಡೇಟಾವನ್ನು ಬಳಸಿ ಮಾಡೆಲ್‌ಗಳನ್ನು ಹೋಲಿಕೆ ಮಾಡಲು ನಿಮಗೆ ಒಂದು ಮಾರ್ಗ ಬೇಕು.

ಒಂದು ಉತ್ತಮ ಬೆಂಚ್‌ಮಾರ್ಕ್ ಮೂರು ನಿರ್ದಿಷ್ಟ ಕ್ಷೇತ್ರಗಳನ್ನು ಪರೀಕ್ಷಿಸುತ್ತದೆ:

ಯೂನಿಟ್ ಟೆಸ್ಟ್‌ಗಳು (Unit tests): ಗುಪ್ತ ಪರೀಕ್ಷೆಗಳನ್ನು ಹೊಂದಿರುವ ಸಣ್ಣ ಫಂಕ್ಷನ್‌ಗಳು.
ಪ್ರಾಜೆಕ್ಟ್ ಜನರೇಷನ್ (Project generation): ಒಂದು ಸ್ಪೆಸಿಫಿಕೇಶನ್‌ನಿಂದ ಸಣ್ಣ ರೆಪೊವನ್ನು ನಿರ್ಮಿಸುವುದು.
ಡಿಬಗ್ಗಿಂಗ್ (Debugging): ದೋಷಪೂರಿತ ಕೋಡ್ ಮತ್ತು ಪರೀಕ್ಷೆಯ ವೈಫಲ್ಯಗಳನ್ನು ಸರಿಪಡಿಸುವುದು.

ಇದನ್ನು ಸ್ವಯಂಚಾಲಿತಗೊಳಿಸಲು ನೀವು OpenAI Evals ಸೂಟ್ ಅನ್ನು ಬಳಸಬಹುದು. ಇದು Python, JavaScript ಮತ್ತು Go ಮೂಲಕ 75 ಕಾರ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿದೆ. ಇದು ಯಾವುದೇ API ಹೊಂದಾಣಿಕೆಯ ಮಾಡೆಲ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತದೆ.

ನಿಮ್ಮ ವರ್ಕ್‌ಫ್ಲೋವನ್ನು ನಿರ್ಮಿಸಲು ಈ ಹಂತಗಳನ್ನು ಅನುಸರಿಸಿ:

ರೆಪೊಸಿಟರಿಯನ್ನು ಕ್ಲೋನ್ ಮಾಡಿ: git clone https://github.com/openai/evals.git
ನಿಮ್ಮ ಎನ್ವಿರಾನ್ಮೆಂಟ್ ಅನ್ನು ಸೆಟಪ್ ಮಾಡಿ: python3 -m venv .venv source .venv/bin/activate pip install -e .
ನಿಮ್ಮ ಮಾಡೆಲ್‌ಗಳ ಪಟ್ಟಿಯನ್ನು ಮಾಡಲು models.yaml ಫೈಲ್ ಅನ್ನು ರಚಿಸಿ. ನೀವು Mistral ನಂತಹ ಓಪನ್ ಸೋರ್ಸ್ ಮಾಡೆಲ್‌ಗಳ ಜೊತೆಗೆ Claude ಅಥವಾ Gemini ನಂತಹ ಹೋಸ್ಟೆಡ್ ಮಾಡೆಲ್‌ಗಳನ್ನು ಪರೀಕ್ಷಿಸಬಹುದು.
ಪರೀಕ್ಷೆಗಳನ್ನು ರನ್ ಮಾಡಿ: python -m evals.legacy.run_all --model-config models.yaml

ಈ ಟೂಲ್ ಒಂದು CSV ಫೈಲ್ ಅನ್ನು ಸೃಷ್ಟಿಸುತ್ತದೆ. ಈ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಲು ಈ ಫೈಲ್ ಅನ್ನು ಸ್ಪ್ರೆಡ್‌ಶೀಟ್‌ಗೆ ಲೋಡ್ ಮಾಡಿ:

ಸರಾಸರಿ ನಿಖರತೆ (Average accuracy).
ಕಾನ್ಫಿಡೆನ್ಸ್ ಇಂಟರ್ವಲ್ಸ್ (Confidence intervals).
ಸರಾಸರಿ ವಿಳಂಬ (Average latency).
ಪ್ರತಿ 1k ಟೋಕನ್‌ಗಳಿಗೆ ವೆಚ್ಚ (Cost per 1k tokens).

ಡೇಟಾ ನೀವು ಉತ್ತಮ ನಿಯೋಜನೆ (deployment) ಆಯ್ಕೆಗಳನ್ನು ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

ಹೆಚ್ಚಿನ ನಿಖರತೆಯ ಅಗತ್ಯವಿದ್ದರೆ: ನಿರ್ಣಾಯಕ ಕೋಡ್ ಜನರೇಷನ್‌ಗಾಗಿ Claude-Opus ಬಳಸಿ.
ಕಡಿಮೆ ವಿಳಂಬದ ಅಗತ್ಯವಿದ್ದರೆ: ಎಡ್ಜ್ ಸಾಧನಗಳು ಅಥವಾ ತ್ವರಿತ ಸಲಹೆಗಳಿಗಾಗಿ Mistral-7B ಬಳಸಿ.
ಸಮತೋಲಿತ ಅಗತ್ಯಗಳಿಗಾಗಿ: ಹೈಬ್ರಿಡ್ ವಿಧಾನವನ್ನು ಬಳಸಿ. ಸುಲಭವಾದ ಕಾರ್ಯಗಳನ್ನು Gemini ಗೆ ಮತ್ತು ಸಂಕೀರ್ಣ ಕಾರ್ಯಗಳನ್ನು Claude ಗೆ ಕಳುಹಿಸಿ.

ಮಾಡೆಲ್‌ಗಳು ವೇಗವಾಗಿ ಬದಲಾಗುತ್ತವೆ. ವಾರಕ್ಕೊಮ್ಮೆ ಸ್ವಯಂಚಾಲಿತ ರನ್ ಅನ್ನು ಸೆಟಪ್ ಮಾಡಿ. ನಿಖರತೆಯು 5% ಕ್ಕಿಂತ ಹೆಚ್ಚು ಕುಸಿದರೆ, ನೀವು ತಕ್ಷಣವೇ ತಿಳಿಯಬಹುದು.

ನಿಮ್ಮ ಸ್ಟೇಕ್‌ಹೋಲ್ಡರ್‌ಗಳಿಗಾಗಿ ಅಸ್ಪಷ್ಟ ಭಾವನೆಗಳನ್ನು ಗಟ್ಟಿಯಾದ ಸಂಖ್ಯೆಗಳಾಗಿ ಪರಿವರ್ತಿಸಿ.

ಮೂಲ (Source): https://dev.to/mrclaw207/benchmarking-llms-for-coding-in-2026-a-practical-guide-1ioh

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ (Optional learning community): https://t.me/GyaanSetuAi

𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗶𝗻𝗴 𝗟𝗟𝗠𝘀 𝗳𝗼𝗿 𝗖𝗼𝗱𝗶𝗻𝗴 𝗶𝗻 𝟮𝟬𝟮𝟲

Continue reading

ಯಾವ LLM ಅತ್ಯುತ್ತಮ ಎಂದು ಕೇಳುವುದನ್ನು ನಿಲ್ಲಿಸಿ

𝗕𝘂𝗶𝗹𝗱 𝗮 𝗟𝗼𝗰𝗮𝗹 𝗔𝗜 𝗖𝗼𝗱𝗲 𝗥𝗲𝘃𝗶𝗲𝘄𝗲𝗿 𝘄𝗶𝘁𝗵 𝗢𝗹𝗹𝗮𝗺𝗮

ನಿಮಗೆ ಬೇಕಾದ LLM ಬೆಂಚ್‌ಮಾರ್ಕ್ ಸ್ಕೋರ್ ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲ

𝗧𝗵𝗲 𝗟𝗟𝗠 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸 𝗟𝗶𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀