𝗔𝘀𝘆𝗻𝗰 𝗕𝗮𝘁𝗰𝗵𝗶𝗻𝗴 𝗖𝘂𝘁𝘀 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲 𝗖𝗼𝘀𝘁𝘀 𝗯𝘆 𝟱𝟬%

Translated for your language. Read the original.

AI-assisted draft.

ನಿನ್ನೆ1min read

AI ಮಾಡೆಲ್‌ಗಳನ್ನು ಚಲಾಯಿಸಲು ಸಾಕಷ್ಟು ಹಣ ಬೇಕಾಗುತ್ತದೆ. ಈ ವೆಚ್ಚಗಳು ಇನ್ಫರೆನ್ಸ್‌ನಿಂದ (inference) ಬರುತ್ತವೆ. ನೀವು ಹೆಚ್ಚು ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಿದಂತೆ, ನಿಮ್ಮ ವೆಚ್ಚಗಳು ಹೆಚ್ಚಾಗುತ್ತವೆ. ಇದನ್ನು ನೀವು async batching ಮೂಲಕ ಸರಿಪಡಿಸಬಹುದು.

Async batching ಅನೇಕ ವಿನಂತಿಗಳನ್ನು (requests) ಒಟ್ಟಿಗೆ ಗುಂಪು ಮಾಡುತ್ತದೆ. ಒಂದೊಂದೇ ವಿನಂತಿಯನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ಬದಲು, ಸಿಸ್ಟಮ್ ಏಕಕಾಲದಲ್ಲಿ ಅನೇಕ ವಿನಂತಿಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ಈ ವಿಧಾನವು ನಿಮ್ಮ ಹಾರ್ಡ್‌ವೇರ್ ಅನ್ನು ಉತ್ತಮವಾಗಿ ಬಳಸಿಕೊಳ್ಳುತ್ತದೆ ಮತ್ತು ಅನಗತ್ಯ ನಿಷ್ಕ್ರಿಯ ಸಮಯವನ್ನು (idle time) ತಡೆಯುತ್ತದೆ.

ಈ ಎರಡು ವಿಧಾನಗಳನ್ನು ಹೋಲಿಸಿ ನೋಡಿ:

Single Processing:

100 ವಿನಂತಿಗಳು (requests)
5000ms ಸಮಯ
$200 ವೆಚ್ಚ
ಹೆಚ್ಚಿನ ಗುಣಮಟ್ಟ

Async Batching:

500 ವಿನಂತಿಗಳು (requests)
2500ms ಸಮಯ
$100 ವೆಚ್ಚ
ಹೆಚ್ಚಿನ ಗುಣಮಟ್ಟ

ನೀವು ಹಣವನ್ನು ಉಳಿಸುತ್ತೀರಿ ಮತ್ತು ವೇಗವನ್ನು ಪಡೆಯುತ್ತೀರಿ. ನೀವು ಗುಣಮಟ್ಟವನ್ನು ಕಳೆದುಕೊಳ್ಳುವುದಿಲ್ಲ.

ಇದನ್ನು ಹೇಗೆ ಅನುಷ್ಠಾನಗೊಳಿಸುವುದು:

ನಿಮ್ಮ ಪ್ರಸ್ತುತ ಸೆಟಪ್‌ನಲ್ಲಿ ಬಾಟಲ್‌ನೆಕ್‌ಗಳನ್ನು (bottlenecks) ಪರಿಶೀಲಿಸಿ.
ವಿನಂತಿಗಳನ್ನು ಗುಂಪು ಮಾಡಲು ಒಂದು ಪ್ರಕ್ರಿಯೆಯನ್ನು ವಿನ್ಯಾಸಗೊಳಿಸಿ.
ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಒಂದು async framework ಅನ್ನು ಸೇರಿಸಿ.
ಅನಾಲಿಟಿಕ್ಸ್ ಮೂಲಕ ನಿಮ್ಮ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಗಮನಿಸಿ.
ಡೇಟಾ ಆಧಾರದ ಮೇಲೆ ನಿಮ್ಮ ಅಲ್ಗಾರಿದಮ್ ಅನ್ನು ಅಪ್‌ಡೇಟ್ ಮಾಡಿ.

ನೀವು ಪಡೆಯುವ ಪ್ರಯೋಜನಗಳು:

ಕಡಿಮೆ ಕಾರ್ಯಾಚರಣೆಯ ವೆಚ್ಚ.
ಉತ್ತಮ CPU ಮತ್ತು GPU ಬಳಕೆ.
ಹೆಚ್ಚಿನ ಡೇಟಾಕ್ಕಾಗಿ ಸುಲಭವಾದ ಸ್ಕೇಲಿಂಗ್.
ಸ್ಥಿರವಾದ ಔಟ್‌ಪುಟ್ ಗುಣಮಟ್ಟ.

ಎಚ್ಚರಿಕೆ ವಹಿಸಬೇಕಾದ ಸವಾಲುಗಳು:

ಸಂಕೀರ್ಣ ಸಿಸ್ಟಮ್ ವಿನ್ಯಾಸ.
ಕಷ್ಟಕರವಾದ ದೋಷ ನಿರ್ವಹಣೆ (error management).
ಪ್ರತಿಕ್ರಿಯೆ ಸಮಯದಲ್ಲಿ ಸಂಭವನೀಯ ವಿಳಂಬಗಳು.

ಈ ಸಮಸ್ಯೆಗಳನ್ನು ತಪ್ಪಿಸಲು ನಿಮ್ಮ ಆರ್ಕಿಟೆಕ್ಚರ್ ಅನ್ನು ಎಚ್ಚರಿಕೆಯಿಂದ ಯೋಜಿಸಿ. Async batching ನೀವು ಮೂಲಸೌಕರ್ಯದ ಮೇಲೆ ಹೆಚ್ಚು ಖರ್ಚು ಮಾಡದೆ ಸ್ಕೇಲ್ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ.

Source: https://dev.to/aicomag/async-batching-for-large-scale-discovery-cutting-inference-spend-by-50-without-quality-loss-46gd

Optional learning community: https://t.me/GyaanSetuAi

𝗔𝘀𝘆𝗻𝗰 𝗕𝗮𝘁𝗰𝗵𝗶𝗻𝗴 𝗖𝘂𝘁𝘀 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲 𝗖𝗼𝘀𝘁𝘀 𝗯𝘆 𝟱𝟬%

Continue reading

𝗦𝘁𝗼𝗽 𝗪𝗮𝘀𝘁𝗶𝗻𝗴 𝗠𝗼𝗻𝗲𝘆 𝗼𝗻 𝗔𝗜 𝗔𝗣𝗜𝘀

𝗔𝘀𝘆𝗻𝗰 𝗦𝗰𝗿𝗮𝗽𝗶𝗻𝗴 𝗜𝘀 𝗕𝗲𝘁𝘁𝗲𝗿 𝗳𝗼𝗿 𝗥𝗔𝗚 𝗜𝗻𝗴𝗲𝘀𝘁𝗶𝗼𝗻

𝗜 𝗧𝗿𝗮𝗰𝗸 𝗪𝗵𝗮𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝗘𝘃𝗲𝗿𝘆 𝗗𝗮𝘆

LLM ವ್ಯವಸ್ಥೆಗಳಿಗಾಗಿ ವೆಚ್ಚದ ಸುಧಾರಣೆ

𝟵 𝗪𝗮𝘆𝘀 𝗧𝗼 𝗥𝗲𝗱𝘂𝗰𝗲 𝗜𝗻𝗳𝗲𝗿𝗲𝗻𝗰𝗲 𝗟𝗮𝘁𝗲𝗻𝗰𝘆